脚本宝典收集整理的这篇文章主要介绍了hbase构建二级索引解决方案,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
HBase的一级索引就是rowkey
,我们仅仅能通过rowkey
进行检索。假设我们相对Hbase
里面列族的列列进行一些组合查询,就只能全表扫描了。表如果较大的话,代价是不可接受的,所以要提出二级索引的方案。
二级索引的思想:简单理解就是,根据列族的列的值,查出rowkey
,再按照rowkey
就能很快从hbase
查询出数据,我们需要构建出根据列族的列的值,很快查出rowkey
的方案。
IndexBuilder:利用MR的方式构建Index 长处:并发批量构建Index 缺点:不能实时构建Index
举例: 原表:
row 1 F1:name zhangsan
row 2 f1:name lisi
row 3 f1:name wangwu
索引表:
row zhangsan f1:id 1
row lisi f1:id 2
row wangwu f1:id 3
这种方式的思想是再构建一张hbase
表,列族的列这里的name
作为索引表的rowkey
,根据rowkey
查询出数据hbase是很快的,拿到id
后,也就拿到了原表的rowkey
了,因为源表的rowkey
就是id
,每次查询一共需要查询两张表。
有关协处理器的讲解,Hbase官方文档是最好的,这里大体说一下它的作用与使用方法。
关键部分来了,既然Hbase并没有提供二级索引,那如何实现呢?先看下面这张图
我们的需求是找出满足CF1:col2=c22这条记录的cf1:col1的值,实现方法如图,首先根据cf1:col2=c22查找到该记录的行键,然后再通过行健找到对应的cf1:col1的值。其中第二步是很容易实现的,因为Hbase的行键是有索引的,那关键就是第一步,如何通过cf1:col2的值找到它对应的行键。很容易想到建立cf1:col2的映射关系,即将它们提取出来单独放在一张索引表中,原表的值作为索引表的行键,原表的行键作为索引表的值,这就是Hbase的倒排索引的思想。
比如说你现在有一行数据
id name age ….30 个字段
但是你现在搜索,只需要根据 id name age 三个字段来搜索
如果你傻乎乎的往 es 里写入一行数据所有的字段,就会导致说 70% 的数据是不用来搜索的,结果硬是占据了 es 机器上的 fileSystem cache 的空间,单挑数据的数据量越大,就会导致 filesystem cahce 能缓存的数据就越少
仅仅只是写入 es 中要用来检索的少数几个字段就可以了,比如说,就写入 es id name age 三个字段就可以了,然后你可以把其他的字段数据存在 MySQL 里面,我们一般是建议用 es + hbase 的这么一个架构。
hbase 的特点是适用于海量数据的在线存储,就是对 hbase 可以写入海量数据,不要做复杂的搜索,就是做很简单的一些根据 id 或者范围进行查询的这么一个操作就可以了
从 es 中根据 name 和 age 去搜索,拿到的结果可能就 20 个 doc id,然后根据 doc id 到 hbase 里去查询每个 doc id 对应的完整的数据,给查出来,再返回给前端。
你最好是写入 es 的数据小于等于,或者是略微大于 es 的 filesystem cache 的内存容量
然后你从 es 检索可能就花费 20ms,然后再根据 es 返回的 id 去 hbase 里查询,查 20 条数据,可能也就耗费个 30ms,可能你原来那么玩儿,1T 数据都放 es,会每次查询都是 5 ~ 10 秒,现在可能性能就会很高,每次查询就是 50ms。
四个字总结的话,我觉得就是“各司其职”,HBase 就用来存储,ES 就用来做索引,况且目前的实际情况跟文章中说的也很像,要查询的字段就几个,而其他的字段又很大又没用,没必要都丢到 ES 中,浪费查询效率
Solr是一个独立的企业级搜索应用server,它对并提供相似干Web-service的API接口。用户能够通过http请求,向搜索引擎server提交一定格式的XML文件,生成索引。也能够通过Http Get操作提出查找请求,并得到XML格式的返回结果。
Solr是一个高性能。採用Java5开发。基干Lucene的全文搜索server。同一时候对其进行了扩展。提供了比Lucene更为丰富的查询语言,同一时候实现了可配置、可扩展并对查询性能进行了优化,而且提供了一个完好的功能节理界面。是一款非常优秀的全文搜索引擎。
HBase无可置疑拥有其优势,但其本身仅仅对rowkey支持毫秒级的高速检索,对于多字段的组合查询却无能为力。基于Solr的HBase多条件查询原理非常easy。将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,通过Solr的多条件查询高速获得符合过滤条件的rowkey值,拿到这些rowkey之后在HBASE中通过指定rowkey进行查询。
网上其它还有根据Phoenix
构建的,redis
、mySQL
等都是可以尝试的。
交流群
加我微信:ddxygq
,回复“加群”,我拉你进群。
猜你喜欢 数仓建模—指标体系 数仓建模—宽表的设计 Spark SQL知识点与实战 Hive计算最大连续登陆天数 Flink计算pv和uv的通用方法
以上是脚本宝典为你收集整理的hbase构建二级索引解决方案全部内容,希望文章能够帮你解决hbase构建二级索引解决方案所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。