<返回列表

新闻分类

资讯动态
软件开发公司ApacheSpark2.0技术预览版,ApacheSpark版本发布两年后,Databricks宣布基于上游分支2.0.0-preview的ApacheSpark2.0技术预览版。就稳定性和API而言,此预览版本不适合生产环境,主要是在正式发布之前从社区收集反馈。此版本的新版本主要是为了改善社区反馈的各种功能。根据Spark的开发计划,主要的改进分为两个方面。 SQL是基于ApacheSpark的应用程序更常用的接口之一。 Spark 2.0可以支持所有99个TPC-DS查询,其中大多数基于SQL:2003规范。这些改进有助于通过少量重写应用程序堆栈将现有数据工作负载移植到Spark后端。第二个改进主要是编程API,并且在此新版本中也更加关注机器学习。 spark.mllib程序包已被新的spark.ml程序包取代,该程序包更侧重于从DataFrames派生的基于管道的API。机器学习管道和模型现在可用于持久性,并受Spark支持的所有语言的支持。同时,R已经可以支持K-Means,广义线性模型(GLM),朴素贝叶斯和生存回归。通过新的Datasets类,DataFrames和Datasets得以统一,以支持Scala和Java编程语言以及结构化流的抽象。不支持编译时类型安全性的语言暂时无法做到这一点,只有DataFrames可以用作主要抽象。 SQLContext和HiveContext已由统一的SparkSession取代。新的AccumulatorAPI具有比基本类型更简单的类型层次结构,它支持基本类型的特殊化。旧的API已被弃用,但为了向后兼容,它仍包含在新版本中。新发布的结构化流API可以用于管理流数据集,而不会增加复杂性,因此程序员和现有的机器学习算法将能够处理批量加载的数据集。借助第二代钨引擎,性能也得到了提高,执行速度提高了10倍。该技术预览版已发布到DataBricks。
扫描二维码关注我们
确 认