hive tricks

发布时间:2022-06-27 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了hive tricks脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

原创

hive的一些tricks:

  •  处理数据内含分号的 ; ,用 '73' 代替
  • hive 9146 bug(新版本已修复),关联条件的顺序不一样:

           ... on (A) and (B)  和 ... on (B) and (A)  竟然导致不一样的结果,

           详情见 https://issues.apache.org/jira/browse/HIVE-9146 。

  • hive 取默认字段 `_c1`
  • hive正则转义 用两个,如 \d
  • mapjoin优化,用于关联时有小表,小表放到内存里,select /*+ MAPJOIN(small_tb)  */  ... 
  • hive可以调用python的脚本,方法是:

         add file /path_of_python_file/py_file.py;

         select transform(col1,col2,col3...) using 'python py_file.py' as (out1,out2,out3...) From table;         transform 的参数col1,col2,col3... 作为python脚本的输入,而out1,out2,out3...作为输出字段。

         利用这个可以把hive自身所带的函数不能或不方便处理的任务,转用python写。

脚本宝典总结

以上是脚本宝典为你收集整理的hive tricks全部内容,希望文章能够帮你解决hive tricks所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。