为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
WARNING:pdfminer.converter:undefined: <PDFType1Font: basefont='RFVSJO+CMEX10'>, 88
WARNING:root:Unknown operator:
为什么我的需要在request前面要加上urllib
pip不是内部或外部命令是因为路径没有设置,可以自行添加

最新回答 / 绿星丑凯龙
soup..find_all(class_='a'),class后面跟上一个下划线_就可以了
Traceback (most recent call last):
File "C:\Users\Summer\workspace\tt\test.py", line 7, in <module>
print(resp.read().decode('utf-8'))
UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 26830: illegal multibyte sequence


报了这个错

最赞回答 / yaoliguo1990
device = PDFPageAggregator(resource,laparms=laparms);你这条代码中laparms应该为laparams
这个地方始终没有显示出来,不知道为什么,win7的系统,安装成功了pdfminer3k

最新回答 / 放学路上的小学生
<...code...>你在尝试用版本2运行版本3下的Beautiful Soup。试试 python3+回车键进入python的编辑环境。直接用python+回车,会搜索path变量最先找到的可执行文件,如果你python2的环境变量在3前面,python+回车进入的是2的环境。
最后一句话我喜欢
可以自己封装一个包了,哈哈,好麻烦啊,等用到再回来看吧,哈哈哈
差 我这个python连install都说语法有问题
嘿嘿 场景三
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消