脚本宝典收集整理的这篇文章主要介绍了第一 第四次 第九次作业补交,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
(1)数据产生方式的改变(2)人类的活动越来越依赖数据(3)各行各业也越来越依赖大数据手段来开展工作
近年来,科学技术快速发展,数据分析有着很重要的地位。随着大数据在生活中的实际应用,学习大数据有着广阔的就业和发展前景。
数字经济建设在数字新技术体系上,数字新技术主要包括物联网、云计算、大数据、人工智能、区块链等五大技术。根据数字化生产的要求,物联网技术为数字传输,云计算技术为数字设备,大数据技术为数字资源,人工智能技术为数字智能,区块链技术为数字信息,五大数字技术是一个整体,相互融合呈指数级增长,才能推动数字新经济的高速度高质量发展。
大数据在我们日常生活中尤为重要,有着广阔的前景
趋势一:数据的资源化
趋势二:与云计算的深度结合
趋势三:科学理论的突破
趋势四:数据科学和数据联盟的成立
趋势五:数据泄露泛滥
趋势六:数据管理成为核心竞争力
趋势七:数据质量是BI(商业智能)成功的关键
趋势八:数据生态系统复合化程度加强
所以我觉得大数据对我们以后的就业和发展有很大的作用
数据量大,对数据保护相对简单,容易造成数据泄露。
二是抓住数据利用和共享合作等关键环节,加强数据安全监管执法。
三是强化技术手段建设,构建大数据安全保障技术体系。
1.用图与自己的话,简要描述Hadoop起源与发展阶段。
Hadoop起源于开源网络搜索引擎apache Nutch
发展阶段:3篇论文
2.用图与自己的话,简要描述 名称节点、第二名称节点、数据节点 的主要功能及相互关系。
名称节点 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。
数据节点 也是一个通常在 HDFS实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。
数据节点 响应来自 HDFS 客户机的读写请求。它们还响应来自 名称节点 的创建、删除和复制块的命令。名称节点 依赖来自每个 数据节点 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,名称节点 可以根据这个报告验证块映射和其他文件系统元数据。如果 数据节点 不能发送心跳消息,名称节点 将采取修复措施,重新复制在该节点上丢失的块
3.分别从以下这些方面,梳理清楚HDFS的 结构与运行流程,以图的形式描述。
@H_833_126@
2.配置环境变量 $HIVE_HOME
3.修改Hive配置文件 gedit
4.配置MySQL驱动
1.下载合适版本的mySQL jar包,拷贝到/usr/local/hive/lib目录下 ls
2.在mysql新建hive数据库 show databases;
3.配置mysql允许hive接入 show grants for 'hive'@'localhost';
5.启停
启动Hadoop--启动Hive--退出Hive--停止Hadoop
二、Hive操作
1.hive创建与查看数据库
2.mysql查看hive元数据表DBS
3.hive创建与查看表
4.mysql查看hive元数据表TBLS
5.hdfs查看表文件位置
6.hive删除表
7.mysql查看hive元数据表TBLS
8.hive删除数据库
9.mysql查看hive元数据表DBS
三、hive进行词频统计
1.准备txt文件
2.启动hadoop,启动hive
3.创建并查看文本表 create table
4.导入文件的数据到文本表中 load data local inpath
5.分割文本 split
6.行转列explode
7.统计词频group by
4.梳理HBase的结构与运行流程,以用图与自己的话进行简要描述,图中包括以下内容:
5.理解并描述Hbase表与Region的关系。
一个HBase表最初只有一个region,当数据存满时,它会进行分裂
6.理解并描述Hbase的三级寻址。
HBase查询数据过程 第一层 zookeeper文件:记录了root表的位置 第二层 root表(根数据表): 记录了META表(元数据表)的Region的位置信息,root表只能有一个region 第三层 META表:记录了用户数据表的region的位置信息,META表可以有多个region,保存了Hbase所有用户数据表的region的位置信息
7.假设.META.表的每行(一个映射条目)在内存中大约占用1KB,并且每个Region限制为2GB,通过HBase的三级寻址方式,理论上Hbase的数据表最大有多大?
三层结构可以保存的region数目为:
(2GB/1KB) * (2GB/1KB) = = 2^40个region
8.MaPReduce的架构,各部分的功能,以及和集群其他组件的关系。
9.MapReduce的工作过程,用自己词频统计的例子,将split, map, partition,sort,spill,fetch,merge reduce整个过程梳理并用图形表达出来。
以上是脚本宝典为你收集整理的第一 第四次 第九次作业补交全部内容,希望文章能够帮你解决第一 第四次 第九次作业补交所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。