脚本宝典收集整理的这篇文章主要介绍了【数仓】一、基本了解,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
一、数仓的安全性、一致性、可靠性
安全性:kerberos+ranger做权限管理
一致性质量监控:python+shell
可靠性:zabbix实现集群性能的可靠监控
元数据管理:atlas
二、需求
1、用户数据采集平台搭建
2、业务数据采集平台的搭建
3、数据仓库维度建模
4、分析设备、商品、地区、活动、会员等核心主题,100多个指标
5、采用即席查询,随时进行指标分析,不在100多个指标之内,临时需求要看一下数据
6、对集群性能的监控,发生异常报警,每个进程是否挂掉
7、元数据管理,hive元数据存储在MySQL,现在用atlas,依赖任务从采集平台开始,到ads输出,任务依赖一层又一层,其中一个任务挂掉,会影响到哪些任务,不得而知,这时候需要一个元数据管理的工具,依赖关系,图形化展示出来,
8、数据质量监控,监控昨天的指标跟今天的指标值的差异是否在一个合理的范围,超过就要报警
9、权限管理,hive中有很多表,每个表不希望让所有人看到,交易额,做到表,表字段让不同的人看到。
三、思考题
1、技术选型
数据量(多和少)、业务需求(多少秒要出结果)、行业内经验(大仓都在选的技术)、技术成熟度(数据湖技术hudi不太成熟)、开发维护成本,总成本预算
采集端:
数据存储端:
数据分析计算:hive(mr落盘,有shuffle)、tez(内存)、spark(部分内存,部分落盘,shuffle落盘)、flink。用hive on spark
数据即席查询:不是固定跑的报表数据,是临时要的数据Kylin,PResto
数据可视化:suPErset,echarts
任务调度:azkaban(中小公司),oozie(功能强大,大仓)
集群监控:zabbix(离线),普罗米修斯(实时)
元数据管理:atlas(中大型公司)
权限管理:表,表字段,哪些用户可以访问,ranger
2、框架选型
3、服务器的使用
4、集群资源规划
四、
以上是脚本宝典为你收集整理的【数仓】一、基本了解全部内容,希望文章能够帮你解决【数仓】一、基本了解所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。