为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰

已采纳回答 / 慕斯9498634
设置环境变量,把C:\Python27\Lib\site-packages这个路径加进去

已采纳回答 / 慕粉3773557
是的,因为python提供了大量的包,下载网页用urllib 解析网页用bs 数据分析用xx 还有很多的开源数据挖掘平台,如weka,都提供了python的接口,在python里调用他们会很简单

已采纳回答 / 请叫我百度
你用的不是python3.5吧,或者说是你用的编译工具的python包是2.7版本而不是3.5版本

最赞回答 / weixin_慕圣8439778
Form Data 是post请求才会出现的,Query String Parameters是get请求才出现,这两个都是请求体,只是请求方式不同,出现不一样

已采纳回答 / 艾尔森
安装beautifulsoup是要在cmd下安装的 键盘win+R运行cmd 然后输入pip install beautifulsoup4就好了

已采纳回答 / jimcurry4297201
WARNING:pdfminer.converter:undefined:i try this, and it works.<...code...>however , i don't know why !-------------------------------------------------------------------------------------------------------------------------------------------it sets ...

已采纳回答 / 红雀
你的代码里面有cursors 应该是import pymysql.cursors

讲师回答 / 秋名山车神
这应该是你没有安装 BeautifulSoup4的缘故

讲师回答 / 秋名山车神
你试试安装64位的可以吗

最新回答 / 慕移动9181930
可以啊,我用谷歌试过,没有问题。你没有写其他浏览器的兼容代码,所以有问题能实现就行,不过你和题目要求还是有点差别哦~你可以在进行优化一下,没有点击的时候标签下有一条线的,你可以把这个优化掉

讲师回答 / 秋名山车神
比如说你想收集所有上市公司历年来资产负债,资产增长,股份变革等等这些情况,你不可能通过人工的方法来查找,因为单单深沪都有几千家公司,只能依靠程序来完成,但是这些信息大部分都是以PDF文件保存的,如果不读取PDF文件还有什么好的方法来完成呢?而且大部分的文件都是以PDF保存的,如果你想从这些文件里面查找信息,一两个文件可能还能人工去查找统计,如果是一百个,一万个文件,依靠人工不知道要到什么时候才能完成,而且还可能会统计错误。

讲师回答 / 秋名山车神
他就是方便从网页中提取数据的,只要会用基本的用法就可以了。如果以后真的有什么特殊的需求,可以去网上搜一下就行了,Python不需要把每个库的所有东西都学完,只需要在用到的时候查一下资料就可以了,也不需要去了解它内部的实现。Python开发的特点就是快,简单。如果前期花费大量的时间去学习这些库所有的东西,实际上很多都用不到,有的可能用一次就不再用了,所以没有必要花太大的信息去把一个库所有的东西研究一遍。
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消