【数仓】一、基本了解

发布时间:2022-06-28 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了【数仓】一、基本了解脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

一、数仓的安全性、一致性、可靠性

  安全性:kerberos+ranger做权限管理

  一致性质量监控:python+shell

  可靠性:zabbix实现集群性能的可靠监控

  元数据管理:atlas

 

二、需求

  1、用户数据采集平台搭建

  2、业务数据采集平台的搭建

  3、数据仓库维度建模

  4、分析设备、商品、地区、活动、会员等核心主题,100多个指标

  5、采用即席查询,随时进行指标分析,不在100多个指标之内,临时需求要看一下数据

  6、对集群性能的监控,发生异常报警,每个进程是否挂掉

  7、元数据管理,hive元数据存储在MySQL,现在用atlas,依赖任务从采集平台开始,到ads输出,任务依赖一层又一层,其中一个任务挂掉,会影响到哪些任务,不得而知,这时候需要一个元数据管理的工具,依赖关系,图形化展示出来,

  8、数据质量监控,监控昨天的指标跟今天的指标值的差异是否在一个合理的范围,超过就要报警

  9、权限管理,hive中有很多表,每个表不希望让所有人看到,交易额,做到表,表字段让不同的人看到。

 

三、思考题

  1、技选型

    数据量(多和少)、业务需求(多少秒要出结果)、行业内经验(大仓都在选的技术)、技术成熟度(数据湖技术hudi不太成熟)、开发维护成本,总成本预算

    采集端:

    数据存储端:

    数据分析计算:hive(mr落盘,有shuffle)、tez(内存)、spark(部分内存,部分落盘,shuffle落盘)、flink。用hive on spark

    数据即席查询:不是固定跑的报表数据,是临时要的数据KylinPResto

    数据可视化:suPErset,echarts

    任务调度:azkaban(中小公司),oozie(功能强大,大仓)

    集群监控:zabbix(离线),普罗米修斯(实时)

    元数据管理:atlas(中大型公司)

    权限管理:表,表字段,哪些用户可以访问,ranger

  2、框架选型

    

  3、服务器的使用

  4、集群资规划

 

四、

脚本宝典总结

以上是脚本宝典为你收集整理的【数仓】一、基本了解全部内容,希望文章能够帮你解决【数仓】一、基本了解所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。