想用Python 做数据挖掘,是自己搭建环境好还是用现成的集成开发...
1 回答
繁星点点滴滴
TA贡献1803条经验 获得超3个赞
主要是方便,python的第三方模块很丰富,而且语法非常简练,自由度很高,python的numpy、scipy、matplotlib模块可以完成所有的spss的功能,而且可以根据自己的需要按照定制的方法对数据进行清洗、归约,需要的情况下还可以跟sql进行连接,做机器学习,很多时候数据是从互联网上用网络爬虫收集的,python有urllib模块,可以很简单的完成这个工作,有些时候爬虫收集数据还要对付某些网站的验证码,python有PIL模块,可以方便的进行识别,如果需要做神经网络、遗传算法,scipy也可以完成这个工作,还有决策树就用if-then这样的代码,做聚类不能局限于某几种聚类,可能要根据实际情况进行调整,k-means聚类、DBSCAN聚类,有时候可能还要综合两种聚类方法对大规模数据进行聚类分析,这些都需要自行编码来完成,此外,基于距离的分类方法,有很多距离表达方式可以选用,比如欧几里得距离、余弦距离、闵可夫斯基距离、城市块距离,虽然并不复杂, 但是用python编程实现很方便,基于内容的分类方法,python有强大的nltk自然语言处理模块,对语言词组进行切分、收集、分类、统计等。
综上,就是非常非常方便,只要你对python足够了解,你发现你可以仅仅使用这一个工具快速实现你的所有想法
- 1 回答
- 0 关注
- 897 浏览
添加回答
举报
0/150
提交
取消