Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

Destiny君

看@qq_Anthony_9的评论
AttributeError: 'spiderMain' object has no attribute 'urls' 这个错误是def __init__(self)处要双下划线
..........才知道if _name_ 错在应该是双下划线

2017-05-26

会卡在某一条加载不出来怎么回事，求教

最新回答 / 小黑屋终结者

links = soup.find_all('a', href=re.compile(r'/item/.*?'))

2 回答 639 浏览 7-7 开始运行爬虫和爬取结果展示

2017-05-26

qq_巴图鲁_03964589

爬出的东西不是html文件，而是下面的一堆

b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\x8dVKo\xe36\x10\xfe+*\x8d\xbd\x04\xd6\xcb\x89\x13G\xb2\rl\x1c\x17\xbb\xa7\x16\xc5\x16\xc8.\n\x18\x94H\xc9L$QKQ~\xaca\xa0=\xb7\xb7\x9ezj/\xed\xb9\xbd-\x8a\xb6\xbf&\x8bEO\xfd\x0b\x1dJ\x94-\xc7IQ\x08\x90\x

0 5-3 Python爬虫urlib2实例代码演示

2017-05-26

qq_巴图鲁_03964589

有没有ppt啊

1 4-1 Python爬虫URL管理

2017-05-26

奇犽11

thanks

0 4-1 Python爬虫URL管理

2017-05-26

百度百科：锁定词条

最赞回答 / SiCheng_Sheen

我之前也遇到过这种情况，纠结了很久，最后才发现一个非常重要的问题，百度的词条信息发生了变化，你可以仔细看看，现在不再是以 .htm结尾了，之前在html_parser模块中的正则表达式已经失效了，原来是href=re.compile(r"/view/\d+\.htm")，现在应该改为href=re.compile(r'/item/\w+')。这也再次证明了在采集数据前，一定要对目标进行仔细认真的分析！

1 回答 1182 浏览 7-7 开始运行爬虫和爬取结果展示

2017-05-25

运行结果提问

最新回答 / 慕移动9181930

==就是Javascript里面的等于号nbsp;=就是赋值号nbsp;nbsp;中间加空格就相当于nbsp;两个赋值号了nbsp;吃了炫迈，停不下来

2 回答 600 浏览

2017-05-25

有人知道如何在JSP页面中点击按钮后运行这个爬虫程序吗

最新回答 / 0嘿_嘿_嘿0

F5吧

1 回答 1044 浏览 7-2 调度程序

2017-05-24

Destiny君

百度半天没结局，看@weibo_2333酱油君_03792374 的评论10秒OK

0 6-2 BeautifulSoup模块介绍和安装

2017-05-23

no module named baike_spider

最赞回答 / 慕粉100117686

我也遇见同样的问题了，直接import就行了，不需要from，参考一下下面从百度上找的回答，前两句是重点的区别吧！小白一枚！！！import Module # 引入模块from Module import Other # 引入模块中的类、函数或者变量from Module import * # 引入模块中的所有‘公开’成员PS:当有一个包名为pname时,其内部 *.py 文件的模块名就是 pname.* 也就是说模块名中包含了 Package包这个概念。其区别就是:第一...

3 回答 2098 浏览 7-2 调度程序

2017-05-23

useror

逻辑很细赞

0 7-2 调度程序

2017-05-22

运行后只能显示第一个网址

最新回答 / cwlml

如果是soup这句话不执行的话，应该是downloader中的htm_cont出现了问题，无法进行解析，你回到解析的文件查看下呢

1 回答 578 浏览

2017-05-22

三三梦

只能说，这，大大坚定了我学习的决心！！！我的美女图片！！！都是我的！！！

4 2-2 爬虫技术的价值

2017-05-21

qq_兜兜风_1

把try...except..先去掉，然后不断运行、改错

2 7-7 开始运行爬虫和爬取结果展示

2017-05-21

文森特_

print("第三种方法")
cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
resopnse3 = urllib.request.urlopen(url)
print(resopnse3.getcode())
print(len(resopnse3.read()))
print(cj)

1 5-3 Python爬虫urlib2实例代码演示

2017-05-21

首页上一页 89 90 91 92 93 94 95 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空