2,StructuredStreaming的事件时间和窗口操作

浪尖 浪尖聊大数据

推荐阅读:1,StructuredStreaming简介

使用Structured Streaming基于事件时间的滑动窗口的聚合操作是很简单的,很像分组聚合。在一个分组聚合操作中,聚合值被唯一保存在用户指定的列中。在基于窗口的聚合的情况下,对于行的事件时间的每个窗口,维护聚合值。
如前面的例子,我们运行wordcount操作,希望以10min窗口计算,每五分钟滑动一次窗口。也即,12:00 - 12:10, 12:05 - 12:15, 12:10 - 12:20 这些十分钟窗口中进行单词统计。12:00 - 12:10意思是在12:00之后到达12:10之前到达的数据,比如一个单词在12:07收到。这个单词会影响12:00 - 12:10, 12:05 - 12:15两个窗口。
结果表将如下所示。

import org.apache.spark.sql.streaming.Triggerimport java.sql.Timestampimport org.apache.spark.sql.functions._import spark.implicits._val lines = spark.readStream.format("socket").option("host", "127.0.0.1").option("port", 9999).option("includeTimestamp", true).load()val words = lines.as[(String, Timestamp)].flatMap(line =>line._1.split(" ").map(word => (word, line._2))).toDF("word", "timestamp")val windowedCounts = words.withWatermark("timestamp", "30 seconds").groupBy(window($"timestamp", "30 seconds", "15 seconds"), $"word").count()val query = windowedCounts.writeStream.outputMode("Append").format("console").trigger(Trigger.ProcessingTime(5000)).option("truncate", "false").start()query.awaitTermination()
©著作权归作者所有:来自51CTO博客作者mob604756ed02fe的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. Spark Structured Streaming高级特性
  2. 你不了解的flink特性-trigger
  3. flink自定义trigger-实现窗口随意输出
  4. 苹果macOS 常用快捷键分享
  5. spark streaming窗口及聚合操作后如何管理offset
  6. 三层口聚合技术笔记 (华为肖哥)
  7. MySQL基础知识——管理和连接
  8. Pycharm 被低估了的 10 个快捷键
  9. 2021-02-27:假设一个固定大小为W的窗口,依次划过arr,返回每一次滑出

随机推荐

  1. Android国内开发者陷盈利困局 版本过多支
  2. WebView之js调用Android类的方法传递数据
  3. ExifInterface使用,Android(安卓)2.0新增
  4. Android(安卓)6.0 BluetoothAdapter.star
  5. android中一些view处理(拖动,定位,显示,图层)
  6. [置顶] android Asynctask的优缺点?能否同
  7. ubuntu linux通过adb命令行"复制粘贴"内
  8. Android主流三方库源码分析(一、深入理解O
  9. Nexus One 吃下 Ice Cream Sandwich,操作
  10. 【转】论山寨手机与Android的联姻