为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
为亿万富翁点赞,为作者点赞。
Beautiful Soup 4.2.0 文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
pdf 的那块讲解要更新一下了,现在2020年无法按照视频中的安装,使用。
有一点不太严谨,p['paser']不是数组、列表、元祖,是字典的获取语法
for t in soup.find_all('a'): # for循环遍历所有a标签,并把返回列表中的内容赋给t
print('t的值是:', t) # link得到的是标签对象
print('t的类型是:', type(t))
print('a标签中的href属性是:', t.get('href')) # 获取a标签中的url链接
之前讲过的这个方式
html = urlopen("https://en.wikipedia.org/robots.txt").read().decode("utf-8")
print(html)

爬出来的结果,似乎还更有秩序一些?
精通课程就可以打造google这样的公司,发家致富哈哈哈哈哈啊哈
pip install pdfminer3k
视频是2016年的啊,两年半了都!(⊙﹏⊙)b
最后结尾我笑了
就听见下一个亿万富翁
我测试使用story = soup.find( {'class':'story'}) 返回None,使用
story = soup.find( class_='story') 可以正常返回结果
用的是python 3.7
我根据老师的代码,返回的结果是json字符串,不是HTML,不过json更好了,都是干净的数据
如果安装完毕后还是找不到bs4 直接在 PyCharm 的terminal命令行里面输入 pip install bs4 完美解决
在navicat设计表的时候需要把ID设置为自动递增,不然导入不会成功的
首页上一页1234567下一页尾页
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消