Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

Hiccup_

https://github.com/Hiccup1/baike_spider 这是我的代码，可以成功爬取的，我也遇到第二条就failed，还有其他乱七八糟的错误，找了半天其实都是不细心写错了，写错字母什么的，少下划线，这代码是可以的，如果能点个star,点个星就更好了

9 7-7 开始运行爬虫和爬取结果展示

2017-07-26

正确代码,改正了错误

最新回答 / 慕沐7125840

你那个语法是2.0的吧.

1 回答 539 浏览 7-7 开始运行爬虫和爬取结果展示

2017-07-26

韩悦丶

我觉得应该在add_new_urls方法下for循环中添加一个if判断，判断下获取的url是否在old_urls中。
for url in urls:
if url not in self.old_urls:
self.new_urls.add(url);

1 7-3 URL管理器

2017-07-26

慕神5542193

使用py3.x的朋友注意，要把urllib2改为 urllib.request 就可以使用了

5 5-3 Python爬虫urlib2实例代码演示

2017-07-26

用的是Python3.6版本的，而且PyDev也已经安装成功，为什么输出却出现报错，运行不了

+ 我来回答回答最高可+2积分

0 回答 1350 浏览

2017-07-25

zrgift

https://github.com/ray-zhong/baike_spider 课程源码，用python3写的

1 8-1 课程总结

2017-07-25

qq_ka新缘_0

多听几遍。。哈哈。。

0 4-1 Python爬虫URL管理

2017-07-23

PyDev Project 创建问题

+ 我来回答回答最高可+2积分

2 回答 803 浏览 5-3 Python爬虫urlib2实例代码演示

2017-07-23

颜鸿羽

爬虫用得着写这么复杂？我特么只要十几条代码就可以想爬多少条网页就爬多少条。。。。

6 7-7 开始运行爬虫和爬取结果展示

2017-07-22

BeautifulSoup安装失败

最新回答 / 成蔚

我的问题与你一模一样，CSDN上一个博主写了解决方法解决方法：在python/lib/site.py中加入 import sysreload(sys)sys.setdefaultencoding('gbk')我试过了，成功！

2 回答 775 浏览 6-2 BeautifulSoup模块介绍和安装

2017-07-22

妳是我生命中最美丽的霞

听不懂你应该先看一些http的知识

1 5-2 Python爬虫urlib2下载器网页的三种方法

2017-07-21

笑忘4054907

为什么不是先写方法，再来写调用，，，这样搞得我很迷惘啊

2 7-2 调度程序

2017-07-21

去掉.encode('utf-8') 出错不去掉显示\xc2\xa0\n\xef\xbc\x88\xe8\x8b\xb1\xe5\x9b\xbd\xe5\x8f\x91\xe9\x9f\xb3\xef\xbc\x

最赞回答 / 孩子气丶

在HTML中需要告诉浏览器使用何种编码fout.write('<html><head><meta charset="UTF-8"></head>') data['title']是str类型，需要先将str转化为utf-8，再将utf-8转化为Unicodefout.write("<td>%s</td>" % data['title'].encode('utf-8').decode('utf-8')) fout.write("<...

1 回答 3129 浏览

2017-07-20

用pycharm的无语了

已采纳回答 / 辰望溪

'SpiderMain' object has no attribute 'urls'第16行出错，谁知道怎么解决

4 回答 896 浏览 7-2 调度程序

2017-07-20

报错为unhashable type : 'set'?? 求救！

最新回答 / NJUPT野球王

http://blog.csdn.net/lanchunhui/article/details/50955238 是不是你23行add（url），传过来url的类型不对

1 回答 2068 浏览 7-5 HTML解析器html_parser

2017-07-20

url_manage.py里面总是报TypeError: unhashable type: 'set'的错

最新回答 / 慕前端3516650

settings.py 文件中TEMPLATES中

'DIRS': [os.path.join(BASE_DIR, 'templates')],

是不是多了中括号？

3 回答 1645 浏览 7-5 HTML解析器html_parser

2017-07-20

首页上一页 78 79 80 81 82 83 84 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫