Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

加了utf-8还是乱码

最赞回答 / 古柳古柳

浏览器里打开时右键“编码”，选择Unicode（UTF-8）试试

3 回答 591 浏览 7-7 开始运行爬虫和爬取结果展示

2017-02-25

报这个错？请问是什么原因？谢谢

已采纳回答 / kinredon

soup = BeautifulSoup(html_cont,'html.parser',from_encoding="utf-8")

2 回答 1792 浏览

2017-02-25

慕粉4086740

课程完整代码：https://github.com/hunantangke/python3-crawler
（使用的是python3.5）

5 8-1 课程总结

2017-02-24

慕粉4086740

课程完整代码：https://github.com/hunantangke/python3-crawler
（使用的是python3.5）

9 1-1 Python开发简单爬虫课程介绍

2017-02-24

也能爬取出来，但是output.html打开是空白。。。

最新回答 / Bobzhangxiaotao

重点是这个：for data in self.datas: fout.write("<tr>") fout.write("<td>") fout.write(data['url']) fout.write("</td>") fout.write("<td>") fout.write(data['title']) fout.write("</td>") fout.write("<td>")...

2 回答 745 浏览 7-7 开始运行爬虫和爬取结果展示

2017-02-24

weibo_娜韵晗Landon_03347859

支持一下！！！

0 7-7 开始运行爬虫和爬取结果展示

2017-02-24

AttributeError: 'UrlManager' object has no attribute 'new_urls'

已采纳回答 / 马里奥的马里奥

class UrlManager(object): def __init__(self): self.new_urls=set() self.old_urls=set() def add_new_url(self,url): if url is None: return if url not in self.new_urls and ur...

2 回答 2877 浏览 7-7 开始运行爬虫和爬取结果展示

2017-02-22

bs4的问题肯定是

+ 我来回答回答最高可+2积分

2 回答 379 浏览 7-5 HTML解析器html_parser

2017-02-22

运行最后面出现这个，哪里错了？

最新回答 / 六边形怪瓜

从报错来看，你的data存成了set，dict与set的初始化都是{}，用法上体现出区别，检查下你的data在存入数据的时候是否是键值对的形式存储

1 回答 511 浏览

2017-02-22

关于python2.5和2.7版本add_data问题、

最新回答 / 进击的爬虫

我也是这个问题，你解决了嘛

2 回答 1561 浏览 7-2 调度程序

2017-02-22

慕粉3705074

第104条后出错

0 7-7 开始运行爬虫和爬取结果展示

2017-02-21

爱看书的扫地僧

urllib.parse.urljoin(base,url)会自动将base中.com前的东西和url拼接起来真是神奇

3 7-5 HTML解析器html_parser

2017-02-21

运行没反应

+ 我来回答回答最高可+2积分

4 回答 663 浏览 7-2 调度程序

2017-02-21

安装bs4一直报错菜鸟求大神教导

最新回答 / king9901

一样的情况，用管理员权限打开cmd，在输入指令就OK了

2 回答 972 浏览 6-2 BeautifulSoup模块介绍和安装

2017-02-21

精慕门8580962

清晰明了，看了两遍，太棒了。

0 7-7 开始运行爬虫和爬取结果展示

2017-02-21

有人根据这个视频调出来的吗？

已采纳回答 / 梦醉西厢

刚爬成功的，你失败肯定是哪出错了，对照这检查一遍<...图片...><...图片...><...图片...><...图片...><...图片...>

6 回答 738 浏览 7-2 调度程序

2017-02-20

首页上一页 109 110 111 112 113 114 115 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫