Python在大数据领域是怎么来应用的
1 回答
噜噜哒
TA贡献1784条经验 获得超7个赞
有些办法。比如使用array, numpy.array。 主要的思路是节约内存的使用,同时提高数据查询的效率。
如果能够注意这些内容,处理几个GB的数据还是轻松的。 接下来就是分布式计算。 按mapreduce的思路。数据尽量在本地处理。所以算法上要优化。主要是分段。
不管怎么说。这几个方面所有的语言都是相同的。即使你用的是C语言也一样要考虑到这些。大数据因为量大,算法也需要改进。
对于不能改进的算法(好象还没有遇到)也只好用python接C的扩展模块了。 好在python与C有很好的接口。轻松就接上。
最近比较流行的方法是使用cython,一方面可以略略提高速度,另一方面与C有无缝的接口。
java在处理大数据方面速度与易用性略略占优势。C++也经常会使用在核心算法上。语言本身都不是问题。大部分时候大数据还是在处理算法本身而不是语言。
在原型阶段python很方便,快速,灵活。所以大数据处理中python是几种语言中最适合的。特别是早期探索阶段。业务与算法经常变更。到了后期基本上都是C++了。java比较适合工程化阶段。
- 1 回答
- 0 关注
- 682 浏览
添加回答
举报
0/150
提交
取消