博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark发布1.3.0版本
阅读量:6227 次
发布时间:2019-06-21

本文共 1448 字,大约阅读时间需要 4 分钟。

3月13日,。这是Spark 1.X发布计划中的第四次发布,距离1.2版本发布约三个月时间。据Spark官方网站报道,此次发布是有史以来最大的一次发布,共有174位开发者为代码库做出贡献,提交次数超过1000次。

\

此次版本发布的最大亮点是新引入的DataFrame API。对于结构型的DataSet,它提供了更方便更强大的操作运算。事实上,我们可以简单地将DataFrame看做是对RDD的一个封装或者增强,使得Spark能够更好地应对诸如数据表、JSON数据等结构型数据样式(Schema),而不是传统意义上多数语言提供的集合数据结构。在一个数据分析平台中增加对DataFrame的支持,其实也是题中应有之义。诸如R语言、Python的数据分析包pandas都支持对Data Frame数据结构的支持。事实上,Spark DataFrame的设计灵感正是基于R与Pandas。

\

Databricks的在今年2月就已经介绍了Spark新的DataFrame API。文中提到了新的DataFrames API的使用方法,支持的数据格式与数据源,对机器学习的支持以及性能测评等。文中还提到与性能相关的实现机制:

\
\

与R/Python中data frame使用的eager方式不同,Spark中的DataFrames执行会被查询优化器自动优化。在DataFrame上的计算开始之前,Catalyst优化器会编译操作,这将把DataFrame构建成物理计划来执行。

\
\

由于Catalyst进行了两种类型的优化:逻辑优化与物理优化(生成JVM bytecode),因而相较于RDD而言,DataFrame有了更好的性能表现。性能对比如下图所示:

\

82bbc82630b2e77f2d35cd89243e2946.png

\\\

Spark的官方网站已经给出了。DataFrame的Entry Point为Spark SQL的SQLContext,它可以通过SparkContext对象来创建。如果希望DataFrame与RDD互操作,则可以在Scala中引入隐式装换,完成将RDD转换为DataFrame。由于DataFrame提供了许多Spark SQL支持的功能,例如select操作,因此,它被放到Spark SQL组件中,而不是作为另一种RDD放到Spark Core中。

\

在Spark 1.3.0版本中,除了DataFrame之外,还值得关注的一点是Spark SQL成为了正式版本,这意味着它将更加的稳定,更加的全面。或许,是时候从HIVE转向Spark SQL了。根据我们的项目经验,代码库从HIVE向Spark SQL的迁移还是比较容易的,毕竟二者的SQL语法非常接近。官方文档也宣称它完全向后兼容HiveQL方言。当然,如果你还在使用Shark,就更有必要将其升级到Spark SQL。

\

对于其他组件,如Spark ML/MLlib、Spark Streaming和GraphX,最新版本都有各种程度的增强。由于目前Spark的版本发布是定期的三个月周期发布,因此除了每次发布版本的里程碑特性外,其余特性可能都是对现有组件的增强,尤其可能是增加新的算法支持(如机器学习中对LDA的支持)或者对第三方工具的支持(如Streaming中对Kafka的Python支持)。Spark社区还会在发布版本之前对将要发布的特性进行投票,这或许是非常好的开源产品管理实践。

\

若需了解最新发布的Spark 1.3.0的更多内容,可以访问。

转载地址:http://eanna.baihongyu.com/

你可能感兴趣的文章
打陀螺
查看>>
phpStudy中升级MySQL版本到5.7.17的方法步骤
查看>>
SQLServer BI 学习笔记
查看>>
sublim课程2 sublim编辑器的使用(敲代码的时候把这个放旁边用)
查看>>
什么是Solr
查看>>
oracle 12cR1&12cR2核心高实用性新特性
查看>>
pandas Series的sort_values()方法
查看>>
SQL SERVER CHAR ( integer_expression )各版本返回值差异的案例
查看>>
pytest文档7-pytest-html生成html报告
查看>>
java中this的N种使用方法
查看>>
Windows IIS安装php
查看>>
mingw 设置python 设置git环境变量
查看>>
linux 系统下如何进行用户之间的切换
查看>>
Socket拆包和解包
查看>>
工作之忠、智、勇
查看>>
电子书下载:Beginning Nokia Apps Development: Using MeeGo, Mobile QT and OpenSymbian
查看>>
mysql 5.0存储过程学习总结
查看>>
matlab练习程序(Ritter‘s最小包围圆)
查看>>
SQL存储过程教程
查看>>
最详细的临时表,表变量的对比
查看>>