为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
使用第三方库
import requests

class HtmlDownloader(object):

def download(self, url):
if url is None:
return None
response = requests.get(url)
response.encoding = 'utf-8'
if response.status_code != 200:
return None
return response.text

最新回答 / Bobo_0024
我没有打开声音,只需要在windows下control + 1就可以跳出,mac下command + 1来跳出创建方法或类
设置两个集合没用到啊,并不能判断是否已经爬取过,也没用到数据库。

最新回答 / 念小東
我的也是这样  您解决了吗?亲     求救啊
import sys
import urllib
url="http://www.baidu.com"
wp=urllib.urlopen(url)
content=wp.read()
fp=open("E:\\python\\web.txt","w")
fp=write(content)
fp.close()

已采纳回答 / 丶coding
pip3 install BeautifulSoup4
pip install beautifulsoup4 失败的话,可以加sudo尝试下
ImportError: No module named 'cookielib'1
Python3中,改成 import http.cookiejar,然后方法里也改成 http.cookiejar,查找替换就行 我做出来了 。
安装失败的大部分应该是因为我大天朝网络访问pip库异常缓慢吧,提供一个修改pip源为阿里云源的方式。
http://mirrors.aliyun.com/help/pypi
python3需要安装使用pip install BeautifulSoup4进行安装,因为BeautifulSoup3已经停止维护了。
可以使用2to3这个工具来检测2和3之间有什么异同,结果中前面有-号的代表着删除,有+号的代表着新增,什么都没有的表示不需要更改。
在python3中,需要分别导入urllib.request, http.cookiejar。
在python2.7中,传入data需要使用urllib.urlencode(data).encode('utf-8')将字典格式的data解析为b'key=value&key1=value1$...'此种格式的字符串。
你这每小节也太短了吧
首先明确自己Python安装在哪个盘里面;
然后cmd
再者先进入如安装的的硬盘,看你是安装在哪个硬盘里;
接着 cd\Python27\Scripts
最后 pip install beautifulsoup4 就可以了
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消