为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
嘿嘿 场景三
pip install pdfminer3k 一切搞定!
游标也得关的。
既然已经获取到解析文档,除了使用BeautifulSoup,完全可以直接使用正则表达式模块re进行处理。例如:
sumVisit = re.findall('<li>访问:<span>(.*?)</span></li>', myPage, re.S)

最新回答 / phoenixor
不需要重新安装了,不过建议你用代码检查下,我的问答里面有一个完整的存储到Mysql的代码,你把连接数据库的参数改成自己的,运行一下看看能不能存储进去。

最新回答 / 爱于万化
报什么样的错?我试过你的sql语句,去掉反引号也是可以执行的
看不下去了,已绕晕,立个flag,以后需要了再来看完。
觉得讲讲Python操作excel会更好的加一,学到这部分总觉得老师走题了。不过想想标题是数据采集,好像从pdf拿点数据出来也算采集的一种哦。
这节有点凑内容的嫌疑了,虽然初学者确实经常容易安装软件不成功,但是这个视频重点应该放在数据采集上面呢。当然,学了一个新的Python库pdfminer3k。
其实本节重点是讲了一些困扰初学者的编码问题,内容非常实用。这个视频标题额,让我误解了主要内容。另外,老师以为我们没有学过日语么,这么淡定的拿来做例子。
去学了一圈【Python操作MySQL数据库 】课程和【与MySQL的零距离接触 】课程的一点点有回过头来看爬虫的存储这一部分,增加一项新技能累啊!

已采纳回答 / 孤独的小猪
看着好像是因为网络的原因,你可以用这命令重新跑一遍,或者更换豆瓣的pypi源。
221828022 这个官方群被群主设置为 不允许任何人加入

最新回答 / 孤独的小猪
这个慕课网还需要录播吗,你想看哪里的内容,可以直接点击进度啊,自由性很大啊。
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消