Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

爱吃豆角的虫子

2.0x 的速度了，怎么还是那么慢。。。

1 4-2 Python爬虫URL管理器的实现方式

2018-03-19

新手学习问题

最新回答 / 十月长欢

遇到不懂的就搜吧

3 回答 1224 浏览 4-1 Python爬虫URL管理

2018-03-19

邬玺邬玺

craw（）方法是类spiderMain（）里的方法吗？为什么老师ctrl+1的时候craw（）方法在类里面，我的就是在外面？

0 7-2 调度程序

2018-03-19

慕慕6496279

随机抛出异常跑不到1000条的，可以改下craw结构，把try和except放到循环里：
while self.urls.has_new_url():
try:
XXXX
......

except:
print('craw failed')
self.outputer.output_html()

0 7-7 开始运行爬虫和爬取结果展示

2018-03-18

语法的问题

已采纳回答 / zhegao

约定. 就像你现在写的中文我能看懂一样. 这个模块的开发者让自己的程序这样去解读, 不过是中间转换一层罢了.

1 回答 677 浏览 6-4 BeautifulSoup实例测试

2018-03-18

qq_笨小偷_04185751

老师讲的非常详细

0 4-1 Python爬虫URL管理

2018-03-18

靖待

http://hubojing.github.io/2018/03/11/Python%E5%BC%80%E5%8F%91%E7%AE%80%E5%8D%95%E7%88%AC%E8%99%AB/#
笔记
Python3.7代码下载地址
https://github.com/hubojing/PythonSpider

4 8-1 课程总结

2018-03-18

我在pycharm上写的，说没有attribute to urlopen，什么意思呀？

最新回答 / 欧阳思月

import urllib.request导入urllib中的request模块, 才能调里面的方法url = ('https://www.baidu.com')surl = urllib.request.urlopen(url) print(surl.read())

3 回答 2059 浏览 5-3 Python爬虫urlib2实例代码演示

2018-03-17

艾丝凡奥尔

管理待抓取URL集合和已抓取URL集合 ///防止重复抓取

0 4-1 Python爬虫URL管理

2018-03-17

慕慕6496279

我昨天在某网站上手动找小电影觉得太累了，所以今天才过来学学爬虫。每个人都可以发表自己的观点，有什么好吵的，带语言攻击的就更不应该了。

2 6-3 BeautifulSoup的语法

2018-03-17

HTMLParseError错误

最新回答 / 幕布斯9454072

试一下这个看 :使用pip升级在管理员权限下使用命令行输入命令“pip install --upgrade beautifulsoup4”

2 回答 1475 浏览 6-4 BeautifulSoup实例测试

2018-03-16

JERRYo_O

老师真棒!

0 7-1 Python爬虫实例-分析目标

2018-03-16

print response1.getCode() AttributeError: addinfourl instance has no attribute 'getCode'

已采纳回答 / 橙子味的于归

代码示例里是getcode()，你的事getCode()

1 回答 1547 浏览 5-3 Python爬虫urlib2实例代码演示

2018-03-15

AttributeError: 'NoneType' object has no attribute 'find'

最赞回答 / qq_驿站_0

找到了，是入口地址改变了

3 回答 1393 浏览 7-7 开始运行爬虫和爬取结果展示

2018-03-13

_杜康_

python2和python3还是有区别的啊

1 5-2 Python爬虫urlib2下载器网页的三种方法

2018-03-13

首页上一页 37 38 39 40 41 42 43 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空