Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

百度百科词条内链接格式分中文链接和英文链接，这种格式该怎样设置html_parser的解析器呢

最赞回答 / 慕斯卡0853084

原来不用分情况，我想复杂了，直接将links = soup.find_all('a', href=re.compile(r"/item/.*")就可以，尴尬

2 回答 1033 浏览 7-5 HTML解析器html_parser

2018-04-27

为什么乱码了？

最新回答 / 你好丶我姓宋

fout = open('output.html', 'w', encoding='utf-8')

然后把write时候的encode删掉

1 回答 5994 浏览

2018-04-26

求教：为什么只爬了两个页面程序就运行结束了呢？

最新回答 / 三马同槽

把view和后面的全都改成item就行了，因为百度把url改了

1 回答 789 浏览

2018-04-23

求助，urllib2

最赞回答 / 慕容4121562

你的python版本是2.X 还是3.X python3.X 取消了urllib2 全部整合在urllib 里

1 回答 968 浏览 5-2 Python爬虫urlib2下载器网页的三种方法

2018-04-23

这个错误是什么原因？

最新回答 / lakerko

发现是class后面少了一个下划线“_”,为什么要加这个线，在哪找相关的文档？

1 回答 926 浏览

2018-04-21

老师你好，对着你的代码，我编译出现这个，我的是3.6版本

最新回答 / Mzurt

好了，终于运行成功啦！我又看了好几遍视频，原来是UrlManager下的def add_new_url(self,url):这个少写了一个参数

1 回答 1175 浏览 7-3 URL管理器

2018-04-19

有没有elipse的下载网址？？？

最新回答 / 慕虎2018

http://www.eclipse.org/downloads/?

1 回答 638 浏览 5-3 Python爬虫urlib2实例代码演示

2018-04-16

1. 这个软件是什么？？？ 2. 我需要下载那些软件，还有安装那些插件？？？？

+ 我来回答回答最高可+2积分

3 回答 1139 浏览 5-3 Python爬虫urlib2实例代码演示

2018-04-16

baike_spider这个模块不需要写什么吗

最新回答 / qq_相对丨眩变_0

baike_spider不是存放.py文件的包吗？？

1 回答 1098 浏览 7-2 调度程序

2018-04-16

pycharm怎么看1000个页面具体信息

最新回答 / qq_Hathaway_0

<...图片...>右击output.html文件，点击copy path，复制链接，然后在浏览器输入

2 回答 1304 浏览 7-7 开始运行爬虫和爬取结果展示

2018-04-15

怎么网页代码不出来

最赞回答 / 慕盖茨4085107

<...code...>

1 回答 916 浏览 5-3 Python爬虫urlib2实例代码演示

2018-04-15

有人用pycharm写的代码吗

最新回答 / 慕尼黑7116567

嗯嗯。

1 回答 1798 浏览 7-2 调度程序

2018-04-12

没有其他部分的代码，所以只能大致推测一下。正如错误信息所言'tuple indices must be integers not str'在视频程序中data应该是dict类型，所以可以用data['url']来取出数据但是在你的程序中，data变成了tuple类型，而tuple只能用数字作为下边取出数据所以才会报错建议你检查一下HtmlParser._get_new_data方法看看有没有写错(以上全是猜的=。=)

1 回答 1068 浏览 7-6 HTML输出器

2018-04-12

需要添加什么库吗？

最新回答 / Penn86

python3 添加了

urllib.request
http.cookiejar

1 回答 981 浏览 5-3 Python爬虫urlib2实例代码演示

2018-04-09

首页上一页 22 23 24 25 26 27 28 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团