HBase 是一个分布式存储、数据库引擎,可以支持千万的QPS、PB级别的存储,这些都已经在生产环境验证,并且在广大的公司已经验证。根据目前公开的数据,阿里巴巴 HBase 集群规模为 12000 多台;京东 HBase 集群规模为 5000 多台;360 HBase 规模为 12500 台;爱奇艺 6000 多台。

HBase 可以说是一个数据库,也可以说是一个存储。拥有双重属性的 HBase 天生就具备广阔的应用场景。在2.0中,引入了OffHeap降低了延迟,可以满足在线的需求。引入MOB,可以存储10M左右的对象,完全适应了对象存储。另外由于自身的并发能力、存储能力,可以说是一个很有竞争力的引擎。HBase 在各大公司的应用场景包括以下几点:

  • 推荐画像:特别是用户的画像,是一个比较大的稀疏矩阵,蚂蚁的风控就是构建在HBase之上

  • 对象存储:我们知道不少的头条类、新闻类的的新闻、网页、图片存储在HBase之中,一些病毒公司的病毒库也是存储在HBase之中

  • 时序数据:HBase之上有OpenTSDB模块,可以满足时序类场景的需求

  • 时空数据:主要是轨迹、气象网格之类,滴滴打车的轨迹数据主要存在HBase之中,另外在技术所有大一点的数据量的车联网企业,数据都是存在HBase之中

  • CubeDB OLAP:Kylin一个cube分析工具,底层的数据就是存储在HBase之中,不少客户自己基于离线计算构建cube存储在hbase之中,满足在线报表查询的需求

  • 消息/订单:在电信领域、银行领域,不少的订单查询底层的存储,另外不少通信、消息同步的应用构建在HBase之上

  • Feeds流:典型的应用就是xx朋友圈类似的应用

  • NewSQL:之上有Phoenix的插件,可以满足二级索引、SQL的需求,对接传统数据需要SQL非事务的需求。

HBase 有着如此多的应用,越来越多的公司都在使用它,这就导致越来越多的开发者们需要学习 HBase。但是HBase是一种分布式的数据库,其正常运行需要部署 HDFS、Zookeeper以及HBase等相关组件;这对于一个新手来说特别复杂,间接增加了我们的学习成本。其实对大部分用户来说,只是想简单的使用 HBase,比如使用它来读写数据,验证某些场景的可行性。对这部分用户,其实他们并不想花太多时间在部署各种组件上面。


©著作权归作者所有:来自51CTO博客作者mb5fdb0a6739180的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项
  2. 数据调度组件:基于Azkaban协调时序任务执行
  3. HTML、HTML5重难点
  4. DolphinDB脚本语言的混合范式编程
  5. HBase重磅 | ApsaraDB HBase数据存储与分析平台概览
  6. HBase平台 | 云Kafka搭配云HBase X-Pack构建一体化数据处理平台
  7. HBase神器 | BDS-HBase集群之间数据迁移同步的利器
  8. Django链接mysql数据库
  9. 视频 | 搜索引擎中的 web 数据挖掘

随机推荐

  1. 安装python2.6.6到ubuntu12.04
  2. Java程序不像python程序那样工作,我不知道
  3. python中list的拷贝与numpy的array的拷贝
  4. Python之sorted内置函数
  5. Python学习笔记(基础篇)_014_GUI模块 eas
  6. python函数介绍及使用
  7. python 操作excel 读写同一个文件
  8. Emacs中的Python 2和3都是如此
  9. Python测试函数和类 笨方法学习Python
  10. python将回车作为输入内容