为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
这个有点扯,虽然说的对,但是大型网站一般有限制让一般的新手爬不了
unicode是字符集,Utf-8是编码方式,你解释的unicode实际应该是utf-16,这种方式是通用两个字节,所以浪费空间,utf-8可以节约空间,但是浪费时间,你这个解释似乎不是很准确。。
你讲错了吧,decode("UTF-8")是把你获取到的网页代码转成UNICODE编码,beautifulsoup内部有自动转换功能,这一步也不是必须的,但是最好明确的转换
呵呵。。。。。。
@baidu_google_so
是这样的,不过findAll 是旧版本的方法,find_all是新版本的,为了符合python的特有的写法,而不是其他编程语言流行的那种写法,下面是官方文档关于新版本和旧版本的差异之处,使用哪个都可以,看个人的爱好,不过官方建议使用新版本的。
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id72
@呵呵lego ...非常感谢,没怎么上过学,而且上学那会也不喜欢英语数学,后来英语也是工作也了以后慢慢学的,看和听还可以,读起来有的就不行了。
安装报错: 'pymysql' is not a package 请指点,一下午都没过去这个坎...

File "F:/AG-Data/Space-Python/Code/imooc/wikitomysql.py", line 7, in <module>
import pymysql.cursors
ImportError: No module named 'pymysql.cursors'; 'pymysql' is not a package

Process finished with exit code 1
conn=pymysql.connect('127.0.0.1','root','root','test')
find_all和findall都能用?
agent的读音啊。。。

老师一定要常备牛津词典
老师,,爱妹子是什么鬼。。。
@平__凡 没错,国内现在虽然还没有因为爬虫采集数据而被起诉的人或者公司,但是国外已经有这样的先例了,不过最终法院判定那个人是无罪的。所以在使用的过程中还是要注意,特别是对于那些提供的服务需要大量带宽的网站,而且要注意那个网站一些拥有版权的东西,只要注意不传播那些东西就不会有什么问题。
@Ali阿力 感谢提醒 下次会注意的
@baidu_google_so 可以同时存在,但是要注意运行的时候需要说明是用python2还是python3来运行。
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消