为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
这个培训的思路太清楚了,赞
你看完再说好吗?介绍3种,是让你有个总体了解,后边会具体介绍,真2

比武鱼: 对于初学者来说太快了,很难理解。为什么要一次过介绍三种方法呢?为什么不能讲一个方法就演示一遍呢?感觉就是照着PPT读一样,那我不如直接看PPT算了,还需要老师干什么。

最新回答 / 慕粉和点心
你用的版本可能错了  有2×、3×俩个版本,你都去试试
不用下载,直接在Scripts目录下输入pip install beautifulsoup4即可安装(电脑要联网,且Scripts目录下有pip.exe文件)
1.到http://www.crummy.com/software/BeautifulSoup/网站上上下载,最新版本是4.6.0。
2.下载完后解压,放到python下。
3.cmd,切换到C:/Python27/beautifulsoup4-4.6.0/目录下(根据自己解压后的目录和下载的版本号修改)
cd C:/Python27/beautifulsoup4-4.6.0
4.运行命令
setup.py build
setup.py install
源自 http://kevinkelly.blog.163.com/blog/static/21390809320133185748442/
老师讲的很好啊,说实话你想学爬虫html是必须的技能树啊。
建议老师开始前先说明下需要哪些前置课程,这样评论区就可以少很多抱怨的声音。
有些零基础的确实是不知道。
@qq_巴图鲁_03964589 搜一下,转换下字符编码就可以了。

已采纳回答 / 华灯初上丶
楼主,我研究了一个晚上,from bs4 import BeautifulSoup报错No module named 'bs4'问题,琢磨了一个方法。首先,我使用的IDE是PyCharm Python版本3.6,在file选项中选择settings选项点进去<...图片...>然后选择Pro...
这是在window下开发的么
P3改后实测有效
1. root_url = &#039;http://baike.baidu.com/item/Python&#039;
2. with open(&#039;output.html&#039;,&#039;w&#039;,encoding=&#039;utf-8&#039;) as fout:
fout.write(unquote(&quot;&lt;td&gt;%s&lt;/td&gt;&quot; % data[&#039;url&#039;]))
fout.write(&quot;&lt;td&gt;%s&lt;/td&gt;&quot; % data[&#039;title&#039;])
fout.write(&quot;&lt;td&gt;%s&lt;/td&gt;&quot; % data[&#039;summary&#039;])
GitHub: https://github.com/fengtimo/baike_spider
Python 3.6.1运行正常
保存1000条数据html打开不显示简介,不知道为啥
非常不错,受教了

已采纳回答 / mk充满爱与正义
如果是URL部分乱码/item/%E7%BC%96%,是因为url采用了再编码--&te(16进制编码解决方法:调用urllib.parse.unquote("/item/%E7%BC%96%")来变回中文注意:变回中文的URL无法用urllib.request.urlopen(URL)来访问,可以在最...
使用第三方库
import requests

class HtmlDownloader(object):

def download(self, url):
if url is None:
return None
response = requests.get(url)
response.encoding = &#039;utf-8&#039;
if response.status_code != 200:
return None
return response.text
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消