flink两三事 ----（1）历史

最近群里朋友让解释下flink的watermark机制，那就顺便也简单聊聊flink本身的二三事，本篇写扯一扯历史：

大家都知道，大数据的起源在美国，当前的最热门的技术也都是美国掌握，hadoop，spark，学术界牛逼高校有伯克利，斯坦福等，商业上也比较成功，比如做平台的cloudera，hortonworks等都在美国。

讲到组件最热的当前应该属于spark，前面刚写一篇文章《Spark这是要一统江湖的节奏》，介绍Spark创始人Matei最近在spark submmit上做了一次演讲，spark开始一统天下了。Spark 成名于用RDD在内存中计算替代了MapReduce的磁盘技术，批量计算场景下，十倍于MapReduce，不过现在spark已经开始朝深度学习和实时计算进军了。

讲到flink也挺有意思。本来欧洲就没有什么像样的大数据项目，这其中可能很大一部分原因是欧洲没有像美国一样成熟的风投，毕竟搞高科技不砸钱肯定是万万不能的。

比如spark是09年诞生在伯克利的AMPLab,13年开源称为Apache孵化项目，同时这帮实验室的老师学生就成立了databricks公司，去商业孵化spark，有了公司之后，spark就得到了快速发展。

欧洲经济不行，但是欧洲老牌高校的底子还是在的，flink作为研究项目其实比spark还要早一年，08年就是柏林理工大学的一个研究项目，但是明显开源运作和商业上要比spark慢很多，14年才称为Apache孵化项目。所以说欧洲的商业化环境要比美国差不少，欧洲的大老爷们也不操心赚钱的事情，起了个大早，赶了个晚集。

不过还好，点选的不错。14年孵化后，flink就避开spark在批处理，主打毫秒级实时流计算。当年spark和flink为了谁是真正的流计算引擎，还PK过很长一段时间。Spark方面还辩解说mini batch也是很牛的，而且万一技术不行，场景也是对的，大部分场景都需要高吞吐的实时计算吧，最新的2.2版本也还是打脸了，也开始支持毫秒级了。

技术只是其中一方面原因，商业生态才是决定因素。spark社区被databricks控制其实是非常严的，commiter/pmc基本都是他们自己人，flink 能搞起来的另外一个原因是大家不愿意看到databricks一家独大，登录flink的网站去看看，http://flink.apache.org，阿里巴巴，爱立信赞助公司等都在列。所以最近有人问，flink和spark好像思路都有点类似，都想一统天下，谁会赢。我说大概率类似开源数据库Postgresql和Mysql，都不会死。不过目前看spark确实还是技压一筹，spark的活跃度要高于flink，不过也别担心flink会不行。

好，这一篇就先扯一扯flink的历史，我不想一篇文章太长，看得累，分开来讲。后面讲讲flink相关的技术，内存管理，留处理引擎，watermark等。谢谢大家。

最后放个小彩蛋，娱乐一下，阿里云的小编犯迷糊了，不过改正还是很快的，不知道会不会受罚。：）

更多相关文章

随机推荐