为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰

最新回答 / 孤独的小猪
这个慕课网还需要录播吗,你想看哪里的内容,可以直接点击进度啊,自由性很大啊。

最新回答 / 孤独的小猪
PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同,它注重的完全是获取和分析文本数据。PDFMiner允许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器,可以把PDF文件转换成HTML等格式。它还有一个扩展的PDF解析器,可以用于除文本分析以外的其他用途。
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
各种教程都是用维基百科做范例,这样真的不符合中国国情啊,此处应有百度百科。
说不要拿慕课网测试说的好暖心!
讲的是python3版本,可我学习时还是用的python2.7

已采纳回答 / Mr_Blue_001
理论上是可以的,麻烦贴下代码,不清楚你的具体问题所在。
出不来结果,报错的同学,欢迎568032437@qq.com询问,我很愿意发给你这一课的代码。评论不能超过300字,贴不了代码。。。
try:
with connection.cursor() as cursor:
sql = "insert into test(name,url) values (%s,%s)"
cursor.execute(sql,(url.get_text(),'https://en.wikipedia.org' + url['href']))
connection.commit()
finally:
connection.close()
ImportError: cannot import name 'request' 报这个错的,请参考修改代码。

import urllib

resp = urllib.urlopen('http://www.baidu.com')
print (resp.read())
哎 还是没学会爬虫,先拿慕课网试试手
BueatifulSoup简直良心,还有中文文档。
有些难度,看到到处是类调类!
使用的2.7版本

import urllib2
req=urllib2.Request("http://www.baidu.com")
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36")
response=urllib2.urlopen(req)
print (response.read())
完结撒花~~~
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消