Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

编译没有错误，运行只能爬取root url，接着就显示craw fialed是什么原因？感觉是parser那里出了问题，大家帮忙看看，就是爬取百科里的python

最赞回答 / 1one一_3607163

问题已解决，建议有类似问题的同学，去掉try模块，看一下有没有报错，根据错误改一下，就好了ps.我是getcode中间多加了个下划线，导致downloader不能正常运行lol

2 回答 905 浏览

2019-02-14

提示错误，一直找不到问题

最新回答 / 慕粉193046834

<...图片...>你的项目在报错啊调好了再运行

2 回答 946 浏览 6-4 BeautifulSoup实例测试

2019-02-13

没去try前只能爬取一条去掉后发生这个错误大神求教!!!!

最新回答 / YMLiu

或者在'html_parser' 中，改成：

links = soup.find_all('a', href=re.compile(r"/item/.*"))

3 回答 1562 浏览 7-7 开始运行爬虫和爬取结果展示

2019-01-30

为什么我的有问题，报错很奇怪

最新回答 / 小马_125

<...图片...>这不是写的很清楚么

1 回答 933 浏览 7-5 HTML解析器html_parser

2019-01-28

基本原理，需要花费时间细读理解记住，否则你还会回来看，根据自身条件最好再对着源码去理解，毕竟原理和实现还是有不少差别，还有代码是敲出来的；大部分技术书籍上的都是过时的，包括学习网站的，学会自己根据网站api去学习，工作中带着疑问去学习效率比较高，摆脱复制黏贴，还有隔一段时间再回头审查自己写过的接口，你会想优化它，那就做吧，代码一定要规范，推荐sona。建议写博客记录下你学习和工作中碰到的问题以及如何解决的，希望能帮助你。

1 回答 1069 浏览 1-1 Python开发简单爬虫课程介绍

2019-01-28

请问这个问题怎么解决？

最新回答 / 慕粉193046834

代码贴出来不过看报错应该是循环写的有问题，检查下循环的参数

1 回答 1002 浏览 7-3 URL管理器

2019-01-27

pycharm下怎么引入和创建谢谢

最新回答 / 默党

您好，是ALT+ENTER

1 回答 995 浏览 7-2 调度程序

2019-01-26

爬了一次就凉了，去掉try后出现这个错误是什么意思

+ 我来回答回答最高可+2积分

0 回答 1274 浏览 7-7 开始运行爬虫和爬取结果展示

2019-01-24

如果爬取url格式不一致的怎么爬？求大神指点！！

+ 我来回答回答最高可+2积分

0 回答 1139 浏览 7-2 调度程序

2019-01-18

cookieJar[]内容为空，且三种方式求得长度不相同，得到的html 是乱码，求大神解答！！！

最新回答 / 白小白123

这个是乱码显示的是二进制的一个形式用这个decode()解码

1 回答 577 浏览 5-3 Python爬虫urlib2实例代码演示

2019-01-17

含有中文的url不能download，

最赞回答 / 永恒的小白

<...图片...>这一步务必使用函数进行url的拼接,带有中文的url会有编码问题

3 回答 2052 浏览 7-7 开始运行爬虫和爬取结果展示

2019-01-12

我try except报一个错之后就跳出来了，为什么不回继续执行while循环的呢？

最新回答 / 痴情1

因为URL集合空了，应该是正则表达式写的不太行。

3 回答 2461 浏览 7-2 调度程序

2019-01-11

跪求链接啊

最赞回答 / 慕丝3084285

老师用的eclipse，也可以用pycharm，我觉得pycharm方便些

1 回答 812 浏览 1-1 Python开发简单爬虫课程介绍

2019-01-07

UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 140: i llegal multibyte sequence

最新回答 / YAAnnnnnnnnn

这是编码错误，gbk编码不能够输出为正确的编码格式。原因是win8的python3的默认编码不是utf8，我们只需要将默认编码改为utf8就能解决这个问题，参见下面的代码：

import sys, io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') # Change default encoding to utf8

1 回答 1232 浏览 7-7 开始运行爬虫和爬取结果展示

2019-01-05

TypeError: object of type 'method' has no len()

最新回答 / 慕粉3535685

你这个url_manager.py里面的has_new_url()方法，返回的东西写错了。不是返回len(self.add_new_urls) != 0是返回

len(self.new_urls) != 0

1 回答 3980 浏览 7-3 URL管理器

2019-01-02

首页上一页 7 8 9 10 11 12 13 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫