Spark 1.3更新概述:176个贡献者,1000+ patches

更新时间:2015-03-19 10:09:46点击次数:2267次

摘要:千呼万唤,合176个贡献者之力,Spark 1.3终于发布,其主要更新包括:2014年到2015年Spark大的API改动DataFrame、内置支持Spark Packages、更好的Kafka支持,以及MLlib中的多个算法引入。


近日,Databricks正式发布Spark 1.3版本。在此版本中,除下之前我们报道过的DataFrame API,此次升级还覆盖Streaming、ML、SQL等多个组件。当下,1.3版本已在 Apache Spark页面提供下载,下面一起浏览 Patrick Wendell在Databricks Blog上对Spark 1.3版本的概括(PS:DataFrame请访问“ Spark新年福音:一个用于大规模数据科学的API——DataFrame  ”一文)。


以下为译文


Spark SQL脱离Alpha版本


在1.3版本中,Spark SQL正式脱离Alpha版本,提供了更好的SQL标准兼容。同时,Spark SQL数据源API亦实现了与新组件DataFrame的交互,允许用户直接通过Hive表格、Parquet文件以及一些其他数据源生成DataFrame。用户可以在同一个数据集上混合使用SQL和data frame操作符。新版本提供了从JDBC读写表格的能力,可以更原生地支持Postgres、MySQL及其他RDBMS系统。同时,该API还为JDBC(或者其他方式)连接的数据源生成输出表格提供写入支持。


> CREATE TEMPORARY TABLE impressions

USING org.apache.spark.sql.jdbc

OPTIONS (

url "jdbc:postgresql:dbserver",

dbtable "impressions"

)


> SELECT COUNT(*) FROM impressions

内置支持Spark Packages


在2014年底,我们着手为Spark建立一个新的社区项目目录站点——Spark Packages。当下,Spark Packages已经包含了开发者可以使用的45个社区项目,包括数据源集成、测试工具以及教程。为了更方便Spark用户使用,在Spark 1.3中,用户可以直接将已发布包导入Spark shell(或者拥有独立flag的程序中)。


# Launching Spark shell with a package

./bin/spark-shell --packages databricks/spark-avro:0.2 

Spark Packages 还为开发者建立了一个SBT插件来简化包的发布,并为发布包提供了自动地兼容性检查。


在Spark Streaming中提供了更低等级的Kafka支持


从过去发布的几个版本来看,Kafka已经成为Spark Streaming一个非常人气的输入源。Spark 1.3引入了一个新的Kakfa streaming source,它利用了Kafka的回放能力,在非预写日志配置下提供了一个更可靠的交付语义。同时,针对那些需求强一致性的应用程序,它还提供了实现了Exactly-Once Guarantees的原语。在Kafka的支持上,1.3版本还添加了一个Python API以及支持这个API的原语。



MLlib中的新算法


Spark 1.3还提供了大量的新算法。其中,Latent Dirichlet Allocation(LDA)成为了个出现在MLlib中的主题建模算法。在这之前,Spark的逻辑回归已经通过多元逻辑回归(multinomial logistic regression )支持多类分类(multiclass classification)。而在这个版本中,聚类再次被提升,Gaussian Mixture Models和 Power Iteration Clustering被引入。并通过FP-growth扩展了频繁项集挖掘(FIM,Frequent Itemsets Mining)。后,MLlib还为Distributed Linear Algebra引入了有效的块矩阵抽象。

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责,本站只提供参考并不构成任何投资及应用建议。本站是一个个人学习交流的平台,网站上部分文章为转载,并不用于任何商业目的,我们已经尽可能的对作者和来源进行了通告,但是能力有限或疏忽,造成漏登,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

  • 项目经理 点击这里给我发消息
  • 项目经理 点击这里给我发消息
  • 项目经理 点击这里给我发消息
  • 项目经理 点击这里给我发消息