最赞回答 / 无概念
它们都支持流式计算,Fink是一行一行处理,是基于操作符的连续流模型,而Spark是基于数据片集合(RDD)进行小批量处理,所以Spark在流式处理方面会增加一些延迟。Flink可以支持毫秒级计算,而Spark则只能支持秒级计算。如果是要求对实时性要求非常高的场景(如高频实时交易),Spark是难以满足的,可以考虑Flink或Storm。
2020-10-28
最赞回答 / 庄学爸
好吧,自问自答,懂了。视频上说sliding size为5s,其实就是每隔5s计算一次最近30s出现的数据,那么肯定数据是会重叠的,因为滑动窗口之间的时间线会有重叠。?
2020-06-27
讲师回答 / 大数据技术与架构
你好,我才看到你的留言。这个问题比较可能是因为:你这个类中import的是不是StreamExecutionEnvironment,或者看看Tuple2是不是引用对了。
2019-02-13