软件开发公司Apache Spark 2.0技术预览

软件开发公司Apache Spark 2.0技术预览

* 来源: * 作者: * 发表时间: 2020-06-19 0:34:59 * 浏览: 19
软件开发公司ApacheSpark2.0技术预览版,在ApacheSpark版本发布两年之后,Databricks宣布了基于上游分支2.0.0-preview的ApacheSpark2.0技术预览版。此预览版在稳定性和API方面不适合生产环境,主要是在正式发布之前收集社区反馈。这次发布的新版本主要改进了社区反馈的各种功能。根据Spark的开发计划,主要的改进分为两个方面。 SQL是基于Apache Spark的应用程序更常用的接口之一。 Spark2.0可以支持所有99个TPC-DS查询,并且大多数查询基于SQL:2003规范。这些改进有助于通过少量重写应用程序堆栈将现有数据负载移植到Spark后端。第二个改进主要是编程API,与此同时,这个新版本也更加关注机器学习。 spark.mllib程序包已由新的spark.ml程序包取代,该程序包更侧重于基于管道的API。此技术源自DataFrames。现在可以保留机器学习管道和模型,并且Spark支持的所有语言都支持此功能。同时,R已经可以支持K-Means,广义线性模型(GLM),朴素贝叶斯和生存回归。通过新的Datasets类,DataFrame和Datasets已统一,可以支持Scala和Java编程语言,还可以用作结构化流的抽象。不支持Compiletime类型安全性(Compiletimetypesafety)的语言暂时无法做到这一点,只能将DataFrames用作主要抽象。 SQLContext和HiveContext已由统一的SparkSession取代。新添加的AccumulatorAPI具有比基本类型更简单的类型层次结构,并且可以支持基本类型的特殊化。旧的API已被弃用,但为了向后兼容,它仍包含在新版本中。新发布的结构化流式API主要用于管理流数据集,而不会增加复杂性,因此程序员和现有的机器学习算法将能够处理批量加载的数据集。借助第二代钨引擎,性能也得到了提高,执行速度可以提高10倍。技术预览版已发布到DataBricks。
扫描二维码关注我们
确 认