为了账号安全,请及时绑定邮箱和手机立即绑定

Spark这是要一统江湖的节奏

标签:
Spark

Spark创始人Matei最近在spark submmit上做了一次演讲,看了内容会发现spark这是要一统江湖的架势,一起来看看都介绍了什么内容。

Spark一直以来想做的一个事情就是统一整个大数据分析引擎,高层易用的API是核心竞争力。

webp

随着2.2版本出来,看起来又更进了一步。2.2版本重点搞了下面三件事:

webp

1) CBO:争抢数据仓库市场,解决性能问题。

2) 流引擎:支持毫秒级流处理,解决了原来只能通过mini batch方式支持流,直接PK flink。

3) 支持python api:python易上手的特点,在很多领域一直有应用,最新的机器学习领域用的最多的也是这个。


在spark的规划中,Spark未来会在两个地方发力:深度学习和流处理。

webp

深度学习还处在很初级的阶段,主要是想在tensorflow、keras、bigdl等机器学习引擎的基础上提供更易用和高层的API。

webp

为了可以处理深度学习,提供了一个深度学习库。https://github.com/databricks/spark-deep-learning

webp

webp


流处理相对成熟,已经具备生成环境的能力,在2.2会正式商用。

webp

Event-time processing(flink是通过watermark机制来搞定)和支持Exactly once很有意思,回头看下具体是怎么实现的。

下图是spark的流API和kafka流代码对比,明显spark要比kafka好用。

webp


在演进最后吹了个牛逼,这个牛逼吹的响:“最早的现在也是最快的”。终于脱掉了流处理不行的帽子了。

webp

Spark还是相当有前途,好好学吧。



作者:yoku酱
链接:https://www.jianshu.com/p/717c9e6d66dd


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消