第四次作业

发布时间:2022-07-02 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了第四次作业脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

1.用图与自己的话,简要描述Hadoop起发展阶段

Hadoop是一个对海量数据存储和海量数据分析计算的分布式系统,是apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。

hadoop的发展史:

Hadoop是道格·卡丁(Doug Cutting)创建的,2004年,Doug Cutting开始基于GOOGLE的三篇论文开发Hadoop,Hadoop是一个虚构的名字,来源是Doug Cutting儿子有一个大象玩偶,名字就叫做Hadoop,所以后来Hadoop的LOGo也是一只大象。Hadoop起源于开源网络搜索引擎Apache Nutch,后者本身也是Lucene项目的一部分。Nutch项目面世后,面对数据量巨大的网页显示出了架构的灵活性不够。当时正好借鉴了谷歌分布式文件系统,做出了自己的开源系统NDFS分布式文件系统。第二年谷歌又发表了论文介绍了Mapreduce系统,Nutch开发人员也开发出了MaPReduce系统。随后NDFS和MapReduce命名为Hadoop,成为了Apache顶级项目。

Hadoop的成长过程Lucene–>Nutch—>Hadoop。

Hadoop开始商用,是在Cutting跳槽到Cloudera之后,Cloudera 是一个为那些在咨询和技上有需求的公司提供服务的平台。它的客户大多来自于传统行业,希望通过 Hadoop 来处理之前只能被直接抛弃的大规模数据。该公司推出的CDH是Hadoop发型版本中的一个。包含了ApacheHadoop。

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

Hadoop大事记:

第四次作业

 

 2.用图与自己的话,简要描述名称节点、第二名称节点、数据节点的主要功能及相互关系。

HDFS:分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群

这些节点分为主从节点,主节点可叫作名称节点(NameNode),从节点可叫作数据节点(DataNode)

第四次作业

 

 

 名称节点:

名称节点最主要功能:名称节点记录了每个文件中各个块所在的数据节点的位置信息。

第一名称节点类似于数据目录。其主要有两大构件构成,FsImage和EdITlog,FsImage用于存储元数据(长时间不更新、Editlog用于更新数据,但是随着时间推移,Editlog内存储的数据越来越多,导致运行速度越来越慢。所以引入第二名称节点,当第一节点中Editlog到一个临界值时,HDFS会暂停服务,由第二节点将拷贝出Editlog,复制、添加到Fslmage后方并清空原Editlog的内容。

 

第四次作业

 

 数据节点:

数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。

第四次作业

 

脚本宝典总结

以上是脚本宝典为你收集整理的第四次作业全部内容,希望文章能够帮你解决第四次作业所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。