为了账号安全,请及时绑定邮箱和手机立即绑定

讲师回答 / 叁金
 在向HDFS的写操作中,不得不提一下“数据流管道”。数据流管道在Google实现他们的分布式文件系统(GFS)时就已引入,其目的是:在写一份数据的多个副本时,可以充分利用集群中每一台机器的带宽,避免网络瓶颈和高延时的连接,最小化推送所有数据的延时。  其实这里我可能表述的不太准确,Client在保存数据的过程当中,将数据发送到第一个数据节点DateNode 1,然后在第一个DateNode节点在本地保存数据的同时,将数据推送到第二个数据节点DateNode 2,同理在第二个节点本地保存数据的同时,也会由...

已采纳回答 / 叁金
<...code...>这里没问题的。out赋值的是内容,并不是data的长度。 你可以看一下python的文件IO相关的操作,read方法传入的是长度,这段代码的含义是 打开某个文件,并从其中读出长度为len(data)的数据保存到out里面。
关于 hadoop 在 Mac OS X 上的安装,大家可以参考这篇比较详细的教程:https://zhuanlan.zhihu.com/p/33117305
mark mark

讲师回答 / 叁金
首先,建议使用anaconda的python科学计算集成环境,利用conda去管理python相关的模块,如果你用的是anaconda你可以尝试以下命令:<...code...>   
1. 大数据是一门以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
2. 具体说,大数据平台基础框架包括了Hadoop和Spark为代表的基础大数据框架。
3. 具体说,各种数据分析技术包括实事数据处理技术、离线处理技术;数据分析、数据挖掘和用机器算法进行预测分析等技术。
考自学学到级大数据开发工程师,这想法不错
希望老师能出一个spark的详细教程
能出一个详细的教程吗?
系统环境为 Ubuntu14.04 (一直用懒得升级)大家可以用用 16、17 什么的。
Python 版本为2.7.13 by Anaconda2 自带iPython
Hadoop 版本为2.7.2
开发工具为 PyCharm
Anaconda是一个用于科学计算的Python发行版,支持Linux, Mac, Windows系统(建议大家使用linux学习。。。),提供了包管理与环境管理的功能,可以很方便地解决多版本Python并存、切换以及各种第三方包安装问题。 墙裂推荐!!!非常好用。
各位老铁顶我上去,让大家都看到。。。
老师用的ubuntu的哪个版本的操作系统
讲的简单易懂,把深奥的理论用几乎白话文讲出来,给老师大大的攒

讲师回答 / 叁金
首先,建议使用anaconda的python科学计算集成环境,利用conda去管理python相关的模块,其也会管理用到的c++模块,如果你用的是anaconda你可以尝试以下命令:<...code...>如果你不是anaconda环境,ubuntu系统可以尝试:<...code...>其他的可以直接搜索github libhdfs3 进行编译安装。python访问hdfs除了hdfs3还有其他模块可以使用比如snakebite等,大家也可以看看其使用方式
入门基础讲的非常好,期待老师的后续课程
最后一句话 不应该是Mapreduce 1.0 跟 Mapreduce 2.0 的区别吗
课程须知
有Linux命令使用基础,有Python编程基础
老师告诉你能学到什么?
大数据到底是个啥,大数据方向到底怎么样 Hadoop基础原理与两个核心 Hadoop的基础应用 Hadoop生态圈简介 Hadoop生态圈常用开源项目介绍

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消