分布式文件系统,机架感知以及掌握数据仓库搭建过程

上篇笔记做了一个简单的了解,这次咱们需要了解下谷歌的三篇论文Google FS、MapReduce、BigTable(一定搜下看看然后过几遍)以后再来进行下边的学习 。

各章概述,继续熏陶 
  • Hadoop部分
    Hadoop的起源与背景知识

       1.大数据的核心问题:        (1)数据的存储:分布式文件系统(分布式存储)        (2)数据的计算:分布式计算    2.概念:数据仓库(Data warehouse)        (1)我们可以把Hadoop和Spark看成是数据仓库的一种实现方式        (2)数据仓库就是一个数据库,一般只做select3)重要的一点:掌握数据仓库的搭建过程        (4)数据仓库又是一种OLAP的应用系统

数据仓库搭建过程

图片描述

    3.概念:OLTP和OLAP         (1)OLTP:online transaction processing联机事务处理         (2)OLAP:online analytic processing联机分析处理---->不会修改(删除)数据     4.(最重要的内容)Google的3篇论文         (1)GFS:Google File System ---> HDFS ---> 解决数据的存储         (2)MapReduce计算模型 ---> Hadoop MapReduce ---> 解决数据的计算         (3)BigTable大表 ---> Hbase是NoSQL数据库   
  • 实验环境

图片描述

  • Apache Hadoop的体系结构(重要):实现Google的思想论文

       1.HDFS:Hadoop Distributed File System        (1)主从结构        (2)主节点:NameNode名称节点        (3)从节点:DataNode数据节点        (4)SecondaryNameNode:第二名称节点

分布式文件系统与机架感知

图片描述
图片描述

    2.Yarn:是一个容器,运行MapReduce程序         (1)主从结构         (2)主节点:ResourceManager 资源管理器         (3)从节点:NodeManager 节点管理器     3.HBase:需要单独安装         (1)主从结构         (2)主节点:HMaster         (3)从节点:RegionServer  
  • Hadoop2.X的安装与配置

       Hadoop有三种安装模式        (1)本地模式  ---> 一台Linux        (2)伪分布模式 ---> 一台Linux        (3)全分布模式 ---> 三台Linux        (4)掌握面密码登录的原理和配置  
  • Hadoop应用案例分析

           (1)大数据背景下,企业级系统的架构的变化        (2)HBase进行日志分析        (3)Hadoop在淘宝的应用 了解下  
  • HDFS:Hadoop的分布式文件系统,数据存储

           (1)操作HDFS:1.命令行 2.Java API 3.网页:Web Console        (2)原理:数据上传的过程和数据下载的过程        (3)HDFS的底层实现:RPC和java动态代理                         RPC:remote procedure call        (4)高级特性:            1.回收站            2.快照snapshot:是一种备份            3.配额quota:名称配额和空间配额            4.安全模式:safemode            5.权限  
  • MapReduce:是一个计算模型,可以用java来实现

       1.Demo:经典的WordCount    2.重点:MapReduce处理数据的过程    3.原理:Yarn执行MapReduce的过程    4.MapReduce的高级特性        (1)序列化        (2)排序        (3)分区        (4)合并    5.MapReduce的核心:Shuffle(洗牌)    6.编程案例:        (1)排序:order by        (2)去重:distinct        (3)多表查询        (4)倒排索引  
  • Hive:蜂巢,数据分析的引擎:翻译器 SQL ---> MapReduce
  • Pig:猪,数据分析的引擎:翻译器 PigLation语言 ---> MapReduce
  • HBase:NoSQL数据库

       1.是基于Hadoop之上的NoSQL    2.体系结构:HMasterRegionServer    3.搭建:本地模式、伪分布模式、全分布模式    4.操作:命令行、Java APIWebConsole    5.过滤器:实现复杂的查询    6.HBase上的MapReduce  
  • Sqoop:数据采集引擎,采集关系型数据库中的数据
  • Flume:数据采集引擎,采集日志
  • HUE:基于Web的管理工具
  • ZooKeeper:相当于一个'数据库',实现HA(High Avaiblity高可用性)
  • Hadoop的集群和HA

       1.HDFS的联盟(Federation)    2.HadoopHAHigh Avaiblity高可用性)  
  • Redis:基于内存的NoSQL数据库,提高性能
  • Storm:处理流式数据(实时计算)

         集成Storm和Redis                                                                                              

脚本宝典为你提供优质服务
脚本宝典 » 分布式文件系统,机架感知以及掌握数据仓库搭建过程

发表评论

提供最优质的资源集合

立即查看 了解详情