脚本宝典收集整理的这篇文章主要介绍了大数据roadmap,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。
- 大数据基础
- Hadoop
- HDFS
- MR
- Yarn
- Spark
- spark 的原理
- spark 常用算子。
- spark 参数调优。
- Flink 流计算
- Hive/Hbase/Flume 大数据中还有其他的组件,比如 作为数仓处理的 Hive,列数据库 HBASE,负责数据 ETL 的 Flume, 负责调度的 OOZIE 等。
- 大数据开发 大数据通用开发流程, 以常用的 lamdba 为例。
- 埋点。主要包含APP 和 H5 上的用户行为埋点与收集
- 数据抽取。如何将埋点数据和业务数据抽取到 大数据平台。
- 数据计算。常用的 MR, Spark,流式可以用 Spark Streaming, Flink
- 数据存储与建模。 数据可以保存在 HDFS,CK等。 建模可以是常用的维度建模, 可以按照 ODS、DWD、DWS、ADS进行分层。
- 数据展示与使用。 包括 BI 报表,OneService
- 大数据管理 大数据管理部分包含,Job 管理,元数据管理,数据质量,数据指标,IDE平台建设等, 主要是通过这些平台的建设,掌握整个数据平台的运行情况, 让数据更加准确,易用,让平台运行更加健康。
- 平台管理,比如小文件管理,元数据管理,安全管理。
- 数据管理,比如数据质量,数据血缘,数据指标
- 平台自身建设,比如 Job,IDE,BI 报表系统等
- 大数据应用 大数据平台除了产出报表,还可以有下面这些应用
- 用户画像,DMP 平台等。用户画像可以在商品召回,或者重排时使用,DMP 平台可以在运营精准营销时起到关键作用。
- 搜索,推荐,广告。现在大多数应用都有搜索,猜你喜欢等模块,这些模块的背后混合了机器学习,用户画像等技术。
- 数据挖掘。比如频繁项挖掘,落地到场景比如买了还买。
- 机器学习。比如 CTR 预估,情感分析,图像识别。
脚本宝典总结
以上是脚本宝典为你收集整理的大数据roadmap全部内容,希望文章能够帮你解决大数据roadmap所遇到的问题。
如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。