最近群里朋友让解释下flink的watermark机制,那就顺便也简单聊聊flink本身的二三事,本篇写扯一扯历史:

大家都知道,大数据的起源在美国,当前的最热门的技术也都是美国掌握,hadoop,spark,学术界牛逼高校有伯克利,斯坦福等,商业上也比较成功,比如做平台的cloudera,hortonworks等都在美国。

讲到组件最热的当前应该属于spark,前面刚写一篇文章《Spark这是要一统江湖的节奏》,介绍Spark创始人Matei最近在spark submmit上做了一次演讲,spark开始一统天下了。Spark 成名于用RDD在内存中计算替代了MapReduce的磁盘技术,批量计算场景下,十倍于MapReduce,不过现在spark已经开始朝深度学习和实时计算进军了。

讲到flink也挺有意思。本来欧洲就没有什么像样的大数据项目,这其中可能很大一部分原因是欧洲没有像美国一样成熟的风投,毕竟搞高科技不砸钱肯定是万万不能的。

比如spark是09年诞生在伯克利的AMPLab,13年开源称为Apache孵化项目,同时这帮实验室的老师学生就成立了databricks公司,去商业孵化spark,有了公司之后,spark就得到了快速发展。

欧洲经济不行,但是欧洲老牌高校的底子还是在的,flink作为研究项目其实比spark还要早一年,08年就是柏林理工大学的一个研究项目,但是明显开源运作和商业上要比spark慢很多,14年才称为Apache孵化项目。所以说欧洲的商业化环境要比美国差不少,欧洲的大老爷们也不操心赚钱的事情,起了个大早,赶了个晚集。

不过还好,点选的不错。14年孵化后,flink就避开spark在批处理,主打毫秒级实时流计算。当年spark和flink为了谁是真正的流计算引擎,还PK过很长一段时间。Spark方面还辩解说mini batch也是很牛的,而且万一技术不行,场景也是对的,大部分场景都需要高吞吐的实时计算吧,最新的2.2版本也还是打脸了,也开始支持毫秒级了。

技术只是其中一方面原因,商业生态才是决定因素。spark社区被databricks控制其实是非常严的,commiter/pmc基本都是他们自己人,flink 能搞起来的另外一个原因是大家不愿意看到databricks一家独大,登录flink的网站去看看,http://flink.apache.org,阿里巴巴,爱立信赞助公司等都在列。所以最近有人问,flink和spark好像思路都有点类似,都想一统天下,谁会赢。我说大概率类似开源数据库Postgresql和Mysql,都不会死。不过目前看spark确实还是技压一筹,spark的活跃度要高于flink,不过也别担心flink会不行。

好,这一篇就先扯一扯flink的历史,我不想一篇文章太长,看得累,分开来讲。后面讲讲flink相关的技术,内存管理,留处理引擎,watermark等。谢谢大家。

最后放个小彩蛋 ,娱乐一下,阿里云的小编犯迷糊了,不过改正还是很快的,不知道会不会受罚。:)

©著作权归作者所有:来自51CTO博客作者mob604756ec296f的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 原创 | 2019年工控行业网络安全事件回顾
  2. 欧洲云计算巨头OVH数据中心失火!为什么Web 3.0需要IPFS!
  3. 走出国门!中国 DevOps 力量欧洲首秀
  4. 欧洲顶级银行 BBVA,区块链与 DevOps 的先行者
  5. 锚点前端路由与Vue前端路由的实现
  6. NASA供应商造假19年致两颗卫星坠毁,损失超数十亿美元
  7. 致死事件大爆发,美国颁布紧急禁令:「电子烟无害健康」就是一场最大
  8. Android系统时间
  9. 如何在Android设备上识别读取美国驾照信息

随机推荐

  1. EditView属性介绍
  2. 关于android的单位dp,dip
  3. 文字跑马灯效果
  4. Audio and Video
  5. Hello TWaver Android
  6. Android(安卓)Gesture 之触摸屏手势识别
  7. android 程序 发布加密
  8. Linearlayout和relativeLayout的属性的一
  9. Android中的单元测试
  10. Android2.2 API 中文文档系列(3) —— Acce