为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
老师讲的很好啊,说实话你想学爬虫html是必须的技能树啊。
建议老师开始前先说明下需要哪些前置课程,这样评论区就可以少很多抱怨的声音。
有些零基础的确实是不知道。
@qq_巴图鲁_03964589 搜一下,转换下字符编码就可以了。
这是在window下开发的么
P3改后实测有效
1. root_url = 'http://baike.baidu.com/item/Python'
2. with open('output.html','w',encoding='utf-8') as fout:
fout.write(unquote("<td>%s</td>" % data['url']))
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
GitHub: https://github.com/fengtimo/baike_spider
Python 3.6.1运行正常
保存1000条数据html打开不显示简介,不知道为啥
非常不错,受教了
使用第三方库
import requests

class HtmlDownloader(object):

def download(self, url):
if url is None:
return None
response = requests.get(url)
response.encoding = 'utf-8'
if response.status_code != 200:
return None
return response.text
设置两个集合没用到啊,并不能判断是否已经爬取过,也没用到数据库。
import sys
import urllib
url="http://www.baidu.com"
wp=urllib.urlopen(url)
content=wp.read()
fp=open("E:\\python\\web.txt","w")
fp=write(content)
fp.close()
pip install beautifulsoup4 失败的话,可以加sudo尝试下
ImportError: No module named 'cookielib'1
Python3中,改成 import http.cookiejar,然后方法里也改成 http.cookiejar,查找替换就行 我做出来了 。
安装失败的大部分应该是因为我大天朝网络访问pip库异常缓慢吧,提供一个修改pip源为阿里云源的方式。
http://mirrors.aliyun.com/help/pypi
python3需要安装使用pip install BeautifulSoup4进行安装,因为BeautifulSoup3已经停止维护了。
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消