大数据roadmap

发布时间:2022-07-05 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了大数据roadmap脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。

  1. 大数据基础
    1. Hadoop
      1. HDFS
      2. MR
      3. Yarn  
    2. Spark
      1. spark 的原理
      2. spark 常用算子。
      3. spark 参数调优。
    3. Flink 流计算
    4. Hive/Hbase/Flume 大数据中还有其他的组件,比如 作为数仓处理的 Hive,列数据库 HBASE,负责数据 ETL 的 Flume, 负责调度的 OOZIE 等。 
  2. 大数据开发 大数据通用开发流程, 以常用的 lamdba 为例
    1. 埋点。主要包含APP 和 H5 上的用户行为埋点与收集
    2. 数据抽取。如何将埋点数据和业务数据抽取到 大数据平台。
    3. 数据计算。常用的 MR, Spark,流式可以用 Spark Streaming, Flink
    4. 数据存储与建模。 数据可以保存在 HDFS,CK等。 建模可以是常用的维度建模, 可以按照 ODS、DWD、DWS、ADS进行分层。
    5. 数据展示与使用。 包括 BI 报表,OneService  
  3. 大数据管理 大数据管理部分包含,Job 管理,元数据管理,数据质量,数据指标,IDE平台建设等, 主要是通过这些平台的建设,掌握整个数据平台的运行情况, 让数据更加准确,易用,让平台运行更加健康
    1. 平台管理,比如小文件管理,元数据管理,安全管理。
    2. 数据管理,比如数据质量,数据血缘,数据指标
    3. 平台自身建设,比如 Job,IDE,BI 报表系统等  
  4. 大数据应用 大数据平台除了产出报表,还可以有下面这些应用
    1. 用户画像,DMP 平台等。用户画像可以在商品召回,或者重排时使用,DMP 平台可以在运营精准营销时起到关键作用。 
    2. 搜索,推荐,广告。现在大多数应用都有搜索,猜你喜欢等模块,这些模块的背后混合了机器学习,用户画像等技
    3. 数据挖掘。比如频繁项挖掘,落地到场景比如买了还买。
    4. 机器学习。比如 CTR 预估,情感分析,图像识别。  

脚本宝典总结

以上是脚本宝典为你收集整理的大数据roadmap全部内容,希望文章能够帮你解决大数据roadmap所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。