为了账号安全,请及时绑定邮箱和手机立即绑定

走进大数据之storm流式计算基础

acmol 其它
难度初级
时长 1小时11分
学习人数
综合评分8.93
47人评价 查看评价
9.0 内容实用
8.6 简洁易懂
9.2 逻辑清晰
  • storm.apache.org/downloads.html
    查看全部
    0 采集 收起 来源:Storm的搭建

    2016-12-23

  • Nimbus挂掉,换台机器重启就可 supervisor挂掉,将上面的worker迁移走就可以 worker挂掉,利用ack机制保证数据未处理成功,会通知spout重新发送.需要对记录通过msgId进行去重.也就是spout发送tuple时指定msgId, spout也挂掉: 可以将数据记录到外部存储,设置checkpoint。
    查看全部
    1 采集 收起 来源:数据可靠性

    2016-12-21

  • spout分组发送,有很多grouping方式(随机,按字段分组)
    查看全部
  • strom: kafka-->数据源结点spout多个(数据来源,发送一个个Tuple给到bolt,同样的Tuple会发到同样的bolt),普通计算结点bolt(可调用其它语言脚本,如java,python)多个(计算完可以持久化到数据库),数据流stream,记录Tuple。 Hdfs: Mapper从hdfs中读取数据并计算,进行整理后(同一个word一定落到同一个reduce里)发送给reduce-再发送给hdfs
    查看全部
  • storm作业提交运行流程 1.用户编写storm Topolgy(wordCountTopology) 一个用户作业 2.使用client提交Topolgy给nimbus 3.nimbus提派Task给supervisor 4.supervisor为task启动worker 5.worker执行task
    查看全部
    1 采集 收起 来源:Storm组件

    2016-12-21

  • storm采用主从结构,主Nimbus和多个从Supervisor,Nimbus只负责管理性的工作单点问题必须保证主节点是无状态的,重启就能恢复,相关元数据配置信息都是存储在zookeeper上。Supervisor主要听Nimbus的话管理启动和监控worker, worker是真正干活的进程负责数据传输和计算.
    查看全部
    0 采集 收起 来源:Storm组件

    2016-12-21

  • 1.分清流式计算(实效要求高的场景)与批量计算(实效要求不高的场景)各自的适用场景 2.知道流式计算中时效性和正确性的取舍 GFS,bigTable,Mapreduce只适合解决批量计算的场景,只能先收集数据收集得足够多之后,再进行Mapreduce处理,处理完后结束计算。 搜索引警恶意点击分析,需要实时知道点击是否是恶意点击.以减少损失. apache storm流式数据则是数据持续不断到来,一般做为一个服务持续不断运行. 流式计算与批量计算整合开源框架(summint bird(trite),cloud data flow(谷歌))
    查看全部
    0 采集 收起 来源:strom概述

    2016-12-21

  • 两种计算的区别
    查看全部
    0 采集 收起 来源:Storm起源_2

    2016-12-17

  • 批量计算与流式计算的区别
    查看全部
    0 采集 收起 来源:Storm起源_2

    2016-12-17

  • 批量式计算和流量是计算的区别
    查看全部
    0 采集 收起 来源:Storm起源_2

    2016-10-23

  • 批量计算与流式计算的区别
    查看全部
    0 采集 收起 来源:Storm起源_2

    2016-10-08

  • hadoop生态
    查看全部
    0 采集 收起 来源:分布式起源

    2016-10-08

  • 官网下载地址:storm.apache.org/downloads.html 尽量不要选src,因为压缩包为src类型的是源码,需要编译。 0.9.5.zip版本下载,在current release下面。 maven是storm的项目管理工具,需要在maven官网下载maven。 Maven官网: 下载地址链接:archive.apache.org/dist/maven/binaries 解压maven.把maven的目录解压到bin目录里面。
    查看全部
    0 采集 收起 来源:Storm的搭建

    2016-08-28

  • Google发明的几篇论文解决了各个公司升级服务器的弊端, 分布式框架三篇论文; google file system bigTable MapReduce 流式计算和批量计算: 目前有些人希望通过同一API解决批量计算和流式计算: Summer bird Clouddataflow (ps:此API开源)
    查看全部
    0 采集 收起 来源:Storm起源_2

    2016-08-28

  • mvn exec:java "-Dstorm.topology=storm.starter.WordCountTopology"
    查看全部
    0 采集 收起 来源:Storm IDE的搭建

    2018-03-22

举报

0/150
提交
取消
课程须知
本课程是Storm初级课程,对用户要求不多,但: 1.讲解API时使用的是Java API,需要用户掌握Java基本语法。 2.最好用过hadoop,或者其它分布式批处理计算系统,会更容易理解一些东西。
老师告诉你能学到什么?
1、流式计算起源 2、Storm组成与基本原理 3、Storm基本API用法 4、Storm集群搭建

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!