Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

想在find()方法中加入string文字的搜索条件

+ 我来回答回答最高可+2积分

0 回答 942 浏览 7-5 HTML解析器html_parser

2018-10-19

urllib2下载网页的方法二是什么意思？

最新回答 / 天天_

就是让爬虫伪装成浏览器请求方式，请求页面

1 回答 912 浏览 5-2 Python爬虫urlib2下载器网页的三种方法

2018-10-19

TypeError: unhashable type: 'set' 出现这种报错，求解？

最新回答 / YAAnnnnnnnnn

将

self.manager.add_new_url(new_urls)

修改为：

for ele in new_urls:    self.manager.add_new_url(ele)

即可。

1 回答 1204 浏览 7-7 开始运行爬虫和爬取结果展示

2018-10-19

python2中的add_data()对应python3的哪个方法

最赞回答 / 慕勒4385194

https://www.cnblogs.com/Lands-ljk/p/5447127.html

1 回答 3704 浏览 5-2 Python爬虫urlib2下载器网页的三种方法

2018-10-18

安装报错：python setup.py egg_info : no such file or directory

最新回答 / qq_慕仙4519379

请问你是怎么解决这个问题的

2 回答 2332 浏览 5-3 Python爬虫urlib2实例代码演示

2018-10-17

为什么我正则表达式报错IndexError: list index out of range

+ 我来回答回答最高可+2积分

0 回答 2990 浏览

2018-10-15

python3.7 No module named 'baike_spider'

已采纳回答 / Yelena_Nic

你可以将spider_main.py移出文件夹，和baike_spider文件夹同级，这样就可以引入了，试试我和老师的一样没有出现这个问题

1 回答 1911 浏览 7-2 调度程序

2018-10-06

python3，第三种方法cookieja返回<CookieJar[]>是什么意思？

最赞回答 / Yelena_Nic

你试试这样导入包：

from http import cookiejar

3 回答 2245 浏览 5-3 Python爬虫urlib2实例代码演示

2018-10-04

为什么我的编程没问题，却没有结果？

最赞回答 / Yelena_Nic

你运行得不是spider_main.py？你那个baike那个包输出的结果是什么啊？贴一下源码把？

2 回答 966 浏览 7-5 HTML解析器html_parser

2018-10-02

一个包是一个带有特殊文件 __init__.py 的目录。__init__.py 文件定义了包的属性和方法。其实它可以什么也不定义；可以只是一个空文件，但是必须存在。如果 __init__.py 不存在，这个目录就仅仅是一个目录，而不是一个包，它就不能被导入或者包含其它的模块和嵌套包。难怪你的导入模块的语句都是红色波浪线啦，你创建的baike_spider是包？吗，还是你吧__init__.py给删了?

2 回答 684 浏览 7-2 调度程序

2018-09-30

output出来的不是汉字，而是字符

+ 我来回答回答最高可+2积分

4 回答 5194 浏览 7-7 开始运行爬虫和爬取结果展示

2018-09-29

大佬们帮忙看看有啥问题啊为什么说主函数没有变量 urls啊

最新回答 / 慕移动9181930

跟着教程又做一遍，又对了老师还会有新课程哒~敬请期待

1 回答 1025 浏览 7-2 调度程序

2018-09-28

报错啊 AttributeError: 'SpriderMain' object has no attribute 'urls'

最新回答 / lenmon2018

你没有声明就用了。你应该写代码时，不小心写错了导致的

1 回答 842 浏览 7-2 调度程序

2018-09-28

soup.find_all('a',href=re.compile(r"\”")) 为什么会匹配不到双引号

+ 我来回答回答最高可+2积分

0 回答 2396 浏览

2018-09-26

首页上一页 12 13 14 15 16 17 18 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团