即将发布的 Apache Spark 2.4 都有哪些新功能

过往记忆大数据 过往记忆大数据
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。

即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。

  • 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。
  • 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。
  • 新增一个新的基于 Databricks 的 spark-avro 模块的原生 AVRO 数据源。
  • PySpark 还为教学和可调试性的所有操作引入了热切的评估模式(eager evaluation mode)。
  • Spark on K8S 支持 PySpark 和 R ,支持客户端模式(client-mode)。
  • Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。
  • 内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪(schema pruning)。
  • 支持 Scala 2.12。
©著作权归作者所有:来自51CTO博客作者mob604756f47778的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. SpringBoot + Mybatis + Druid + PageHelper在多数据源下如何配
  2. 关于OpenGL游戏全屏模式的设置
  3. 《游戏程序设计模式》 2.2 - 游戏循环
  4. 态路小课堂丨QSFP-DD封装模式光模块接口类型:LC/MPO12/MPO16/MPO2
  5. Apache Hive 联邦查询(Query Federation)
  6. python之模拟io模式
  7. Centos7配置DR模式的LVS
  8. 干货丨DolphinDB通用计算教程
  9. 2021-03-30

随机推荐

  1. leetcode解题之242# Valid Anagram Java
  2. 自定义视图无法工作,直到我触摸屏幕
  3. RabbitMQ四种Exchange类型之Headers(Java
  4. 将字符串拆分为字符串数组。
  5. Gson将List 反序列化为realmList
  6. 【读书笔记】JavaScript权威指南 第6版 (
  7. java使用compareTo实现一个类的对象之间
  8. java动态编译 (java在线执行代码后端实现
  9. Java学习-准备工作
  10. Java学习第9天(6):面向对象-多态-object