Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

为什么只有一行

+ 我来回答回答最高可+2积分

6 回答 843 浏览 8-1 课程总结

2016-02-28

老师，我收集的数据为什么append到set()是空的呢

已采纳回答 / 慕仙4923546

set数据结构是没有append()方法的，你的收集的数据放到dict结构中更好

1 回答 944 浏览 8-1 课程总结

2016-02-27

用的是pathon2,代码也和视频完全一样，为什么运行出来会这样？

已采纳回答 / Yaffy

#coding:utf-8import urllib2import cookieliburl = "http://www.baidu.com"print '第一种方法'response1 = urllib2.urlopen(url)print response1.getcode()print len(response1.read)第一种方法做后获取长度时response1.read 你少个括号应该是response1.read()

1 回答 1328 浏览 5-3 Python爬虫urlib2实例代码演示

2016-02-24

按照老师讲的写的，这是什么错误？

已采纳回答 / avalon3515

你的UrlManager类里并未定义new_urls属性

5 回答 2185 浏览 7-7 开始运行爬虫和爬取结果展示

2016-02-18

使用utf-8还是乱码

已采纳回答 / avalon3515

我使用的是python3，根据实际调试发现此处不需要用encode('utf-8')，但是fout = open('output.html', 'w', encoding='utf-8')要把encoding参数加上，因为在windows下默认编码是gbk，忽略次参数会产生错误。

1 回答 2559 浏览 7-7 开始运行爬虫和爬取结果展示

2016-02-17

downloader失败

已采纳回答 / blacksea3

有可能中间这一块哪里代码打错了而不是self.urls.has_new_url()==0导致退出循环，python的百科里面是有别的链接的，你可以试着把try-except去掉，让错误直接显示出来中间这一块指的是：<...code...>根据错误位置设置print 相应的变量查看错误原因。

1 回答 1009 浏览 7-7 开始运行爬虫和爬取结果展示

2016-02-16

print( len(response2.read()))一会好一会报错

已采纳回答 / 传说级小白

就比如我们正常打开网页的时候也会报错，可能和你网速有关，也可以是服务端处理请求有关

1 回答 3472 浏览 5-3 Python爬虫urlib2实例代码演示

2016-02-15

为什么建立函数用IF？

已采纳回答 / jireh

那是调用main函数，建立main函数仍然需要def。这是python在调用执行程序时，只有一个入口，就是要判断是不是执行__name__='__main__'的函数

2 回答 912 浏览 7-2 调度程序

2016-01-31

运行没有反应，eclipse的console显示 <terminated> E:\Android\workspace1\imooc\baike_spider

最新回答 / 启真湖畔的千纸鹤

+1，我也是

8 回答 7881 浏览 7-7 开始运行爬虫和爬取结果展示

2016-01-27

高效的编程

已采纳回答 / 赤道2015

我之前用eclipse时感觉不习惯这些快捷键，后来看视频，看到老师总用快捷键，自己就在网上搜，老师的这些操作是用什么快捷键，然后自己也练习使用，所以，发现问题就查，查完就用。

1 回答 712 浏览 7-5 HTML解析器html_parser

2016-01-27

输出的网页内容是乱码？

最赞回答 / Ariesfish

代码中设定了输出编码是utf-8，但是没有在html head中加入该网页的编码格式，浏览器就用默认的编码方式去解析了。在<...code...>下面追加输出<...code...>就可以解决了。

6 回答 1216 浏览 7-6 HTML输出器

2016-01-27

运行代码时出现 'module' object has no attribute 'HtmlParser'报错

已采纳回答 / 啊B

html_parser文件中 HtmlParser方法不存在，或者是名字写错了，自己检查一下

3 回答 4263 浏览 7-7 开始运行爬虫和爬取结果展示

2016-01-24

安装beautifulsoup4的问题

已采纳回答 / SparkSinton

提示错误是什么呢？截图可以Po 上来

4 回答 2271 浏览 6-3 BeautifulSoup的语法

2016-01-19

Pycharm中ctrl+1不能用？

最赞回答 / adamtang

补充几张图片示例：1.光标放到UrlManager再Alt+Enter键出来选择下拉列表，选择第一个，创建了class UrlManager()。<...图片...>2.url管理器的几个方法都已经高亮显示了<...图片...>3.把光标add_new_url（）按Alt+Enter键可以创建该方法。<...图片...>4. 重复3步骤，创建has_new_url()，add_new_urls（）方法<...图片...>

11 回答 4770 浏览 7-2 调度程序

2016-01-19

1000个页面指的是什么意思？

讲师回答 / 蚂蚁帅帅

讲课的时候，不可能抓取太多的页面，因为等的时间太长，所以只抓取了1000个页面用于演示效果，大家当然不用这么设定

2 回答 871 浏览 8-1 课程总结

2016-01-12

首页上一页 13 14 15 16 17 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫