心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: Wireshark使用入门下一篇:2021年第四届“传智杯“大学B组

hive知识点总结

发布时间：2022-06-27 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了hive知识点总结，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

hive学习知识总结

Hive定义
Hive的特点及应用场景
Hive架构
Hive中的库
Hive 中的表
行转列，列转行
Rank函数
UDF

Hive定义

Hive由FaceBook开源用于解决海量数据化日志的数据统计。

Hive   是Hadoop生态系统中必不可少的一个工具。   它可以将存储在HDFS中的结构化数据映射为一张表，并提供了一种SQL方言对其进行查询。 这些sql语句最终会翻译成Mapreduce程序执行。

Hive的特点及应用场景

hive是基于Hadoop的应用程序，受限于Hadoop的设计， Hive不能提供完整的数据功能。最大的限制就是Hive不支持行级别的更新、插入、或者删除操作。同时，因为MaPReduce的启动过程需要消耗较长的时间，所有Hive查询延迟比较严重。传统数据库中秒级别可以完成的查询，在Hive中即使数据集相对较小，往往也需要执行更长的时间，最后需要说明的是， Hive不支持事务。因此Hive是最适合于数据仓库应用程序，使用该应用程序进行相关的静态数据分析，不需要快速给出响应结果，而且数据本身不会频繁变化。。

Hive架构

大家先看一张图

hive知识点总结

Hive中客户端有这三种F1a;CLI(命令行客户端），HWI(网页客户端)，和Thrift Server(编程客户端)。

在客户端输入的所有命令和查询都会进入到Driver(驱动模块)进行解析，编译，优化和执行。 Driver包含SQL Paser， Physcial Plan， Query Optimizer，和Execution四个模块。 SQL Parser是解析器，用于将SQL语句转换为抽象语法树。 Physical Plan 是编译器，用于将抽象语法树编译生成逻辑计划。 Query Optimizer 是优化器，用于对逻辑执行计划进行优化。 Execution 是执行器，用于把逻辑执行计划转换为可执行的MapReduce程序。

Meta Store（元数据存储）是一个独立的关系型数据库（通常是MySQL），Hive会在其中保存表模式和其他系统元数据。

Hive中的库

Hive中数据库的概念本质上仅仅是一个表的一个目录或者命名空间。对于有很多组和用户的大集群，这是非常有用的，因为这样可以避免表命名冲突。

举个栗子~ 创建一个库。 CREATE DATABASE school;

如果数据库school已经存在的话，那么会抛出一个错误信息，使用以下语句可以避免这种情况！

CREATE DATABASE IF NOT EXISTS school;

可以使用以下命令查看HIve中所包含的数据库;

SHOW DATABASES;

数据库所以目录位于属性 hive.metastore.warehouse.dir 所指定的顶层目录之后。假设用户使用的是这个属性的默认配置，也就是/usr/hive/warehouse, 那么当我们创建数据库school的时候， HIve将会对应地创建一个目录/usr/hive/warehouse/school.db。这里请注意，数据库的文件目录命是以.db结尾的。

USE 命令用于将某个数据库设置用户当前的工作数据库，和在文件系统中切换工作目录是一个概念; USE school;

最后用户可以删除数据库：
DROP DATABASE IF EXITS school CASCADE;

IF EXISTS 子句是可选的，如果加了这个子句，就可以避免因数据库school不存在而抛出的警告信息。

默认情况下，Hive是不允许删除一个包含有表的数据库。用户要么先删除数据库中的表再删除数据库，要么在删除命令最后加上CASCADE关键字。 CASCADE 关键字可以使Hive自行先删除数据库中的表，再删除数据库。

Hive 中的表

Hive支持关系数据库中的大多数进本数据类型，同时HIve还支持关系数据库中的不常出现的3中集合数据类型。

数据类型	长度	例子
TINYINT	1byte有符号整数	10
SMALINT	2byte有符号整数	10
INT	4byte有符号整数	10
BigINT	8byte有符号整数	10
BOOLEAN	布尔类型，true或者false	TRUE
FLOAT	单精度浮点数	1.0
DOubLE	双精度浮点数	1.0
STRING	字符串	”cat“
TIMESTamP	日期，时间戳或者字符串	132788或者’2020-5-12 13:30:2’
ARRAY	一组有序的字段，类型必须相同	Array(1,2)
MAP	一组无序的键值对	Map(‘a’,1’b’,2)
STRUCT	一组命名的字段，字段类型可以不同	Struct(‘a’,1,1,0)

行转列，列转行

行转列:
CONCAT(string A/col, string B/col…)**：返回输入字符串连接后的结果，支持任意个输入字符串;
CONCAT_WS(separator, str1, str2,...)**：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;
COLLECT_SET(col)**：函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总，产生array类型字段。

列转行:
explode(col)：将hive一列中复杂的array或者map结构拆分成多行。
LATERAL VIEW
用法：LATERAL VIEW udtf(exPression) tableAlias AS columnAlias

Rank函数

RANK() ：值相同时，排序相同时会重复，总数不会变。比如，1，2，2，2，5
DENSE_RANK()：值相同时，排序相同时会重复，总数会减少。比如,1,2,2,2,3
ROW_NUMBER() ：值相同时，排序按照顺序不重复，总数不变。比如,1,2,3,4,5。
PERCENT_RANK:百分比排序

UDF

UDF（User-defined Functions）即是用户定义HIve函数，当Hive自带的函数不能满足业务需求时，就需要我们的自定义函数了。
Hive中有3三种自定义函数:
UDF:操作单个数据行，产生单个数据行（一进一出）
UDAF:操作多个数据行，产生一个数据行(多进一出)
UDTF:操作一个数据行，产生多个数据行一个表作为输出(一进一出)

脚本宝典总结

以上是脚本宝典为你收集整理的hive知识点总结全部内容，希望文章能够帮你解决hive知识点总结所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：cap column column hadoop hdfs hive java mapreduce mysql mysql php python String 优化优化参数参数工具工具应用场景应用场景排序排序数据库数据库程序员程序员

上一篇: Wireshark使用入门下一篇:2021年第四届“传智杯“大学B组

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多