Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

为什么解析后的url要放进url管理器里？

已采纳回答 / Lovins

添加到 url管理器中才能循环访问 url，爬取相关数据。如果不添加进去，只会爬取 root_url的数据了。

1 回答 1410 浏览 7-2 调度程序

2017-12-22

mac 下pycharm的快捷键导入、创建都没用...

最新回答 / weibo_笙箫笑竹_0

我也遇到这个问题，请问怎么解决，我用的是pycharm

6 回答 3077 浏览 7-2 调度程序

2017-12-14

这个软件是什么，怎么下载

已采纳回答 / 慕雪7168328

切换到python的Scripts目录下面，用pip install bs4安装

1 回答 943 浏览 6-4 BeautifulSoup实例测试

2017-12-01

为什么我只有初始的url，而且output.html里也是空的

已采纳回答 / 辜东明

断点跑一下看看是哪一步出现了问题。

2 回答 1085 浏览 7-6 HTML输出器

2017-11-29

运行出现问题

已采纳回答 / guchao_0001

obj_spider.craw(root_url)小写试试

2 回答 1214 浏览 7-2 调度程序

2017-11-19

爬虫报错：Do you need to install a parser library?

已采纳回答 / Hello_see_you

将html_parser 改成 html.parser试试，我的能运行成功了

3 回答 12650 浏览

2017-11-16

找不到urllib2

已采纳回答 / 慕粉1459244680

那个写法是Python2的，Python3的是urllib.request

2 回答 897 浏览 5-2 Python爬虫urlib2下载器网页的三种方法

2017-10-18

代码count=count+1报错

已采纳回答 / 尹佩凡

不是count的问题, break 要放在 while 循环里面

1 回答 741 浏览 7-2 调度程序

2017-10-11

爬虫失败，failed

已采纳回答 / 醉客

说明有地方出错了，你先把异常处理的try块去掉运行，把错误改完了再加上去

2 回答 1547 浏览 8-1 课程总结

2017-10-10

python爬虫

已采纳回答 / xixiyingyi

因为爬的数目少（才1000条....），理论上全部百科的网页都可以获取到，但是全部百科网页的数目是你无法想象的。我爬到了各种各样的百科信息，包括计算机、学校、人命......，你可以把爬的数量count设置为1亿试试......

2 回答 1511 浏览 7-1 Python爬虫实例-分析目标

2017-10-09

init() missing 1 required positional argument: 'arg' 该怎么解决？

已采纳回答 / Noah_________

还是需要看看你的代码，这种情况一般是实例化部分的代码有问题相关的库或者依赖成分版本过低，升级或者重新下最新的重装

1 回答 2989 浏览 7-2 调度程序

2017-10-02

url正则匹配

已采纳回答 / wzrzt

应该只是需要把后面的文字拼上去就好了,没有 lemmaid的就没有，可能需要分两种情况，你试一下。<...图片...><...图片...>

3 回答 1659 浏览 7-5 HTML解析器html_parser

2017-09-25

类的实例化问题

已采纳回答 / majorinche

url_manager本身是自建的一个模块啊，UrlManager()才是类的实例后面的HtmlOutputer是另一个模块的的实例程序开始有import url_manager这个语句来导入这个模块的，跟import re一个意思

1 回答 834 浏览 7-2 调度程序

2017-09-23

关于下划线问题

已采纳回答 / 慕UI7442310

因为class是python里面的关键字“类”，如果这里使用关键字class会被python认为是一个类，从而会产生歧义进而报错，所以加一个下划线与class区分能避免此类错误！

1 回答 1217 浏览 6-4 BeautifulSoup实例测试

2017-09-22

python3 NoneType object is not callable怎么解决

最赞回答 / qq_Vanillasky_1

后面不用追加 () 就行了

7 回答 38933 浏览 7-7 开始运行爬虫和爬取结果展示

2017-09-21

首页上一页 1 2 3 4 5 6 7 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫