Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

刀剑与玫瑰

好感动QAQ

2016-09-15

cxy86

soup = BeautifulSoup(
html_doc, #HTML文档字符串
'html.parser' #HTML解析器
from_encoding='utf8' #HTML文档的编码
)
这段代码会在from_encoding处报错invalid syntax

2 6-3 BeautifulSoup的语法

2016-09-14

No module named bs4 说我没有装bs4.

已采纳回答 / 慕粉18001275658

<...图片...>应该这样安装才行

3 回答 28170 浏览 6-4 BeautifulSoup实例测试

2016-09-14

运行报错，怎么回事，看不懂！

最新回答 / UFO2015

# 初始化 class```pyclass UrlManage(object): def __init__(self): self.new_urls = set(); self.old_urls = set(); def add_new_url(self, url): # todo```

3 回答 594 浏览 7-2 调度程序

2016-09-13

PyCharm : 报错提示： too broad exception clauses 的完美解决方案！

最新回答 / UFO2015

```pyexcept Exception as e: logging.exception(e) print 'error'```

3 回答 12653 浏览 7-2 调度程序

2016-09-13

UFO2015

too broad exception clauses

This inspection highlights too broad exception clauses such as no exception class specified, or specified as 'Exception'.

0 7-2 调度程序

2016-09-13

琳小白

谢谢老师，条理清晰，很受用

0 8-1 课程总结

2016-09-13

python 3.4 urllib2 不能用

最新回答 / 慕粉3182733

python3里面没有urllib2，只有urllib，跟2的用法不一样。我同时安装了python2和3，在解释2编写的代码的时候用2的解释器，解释3编写的代码的时候用3的解释器。开发环境是pycharm，可以更改settings里面的interpreter。如果是命令行的话可以用py -2或者py -3运行程序。如果环境变量2在前可以省略py -2，3同样。

2 回答 2227 浏览 5-2 Python爬虫urlib2下载器网页的三种方法

2016-09-08

慕后端4529686

我也是输出一条之后就crawl失败了。
后来修改了spider._main下的craw函数的try...except。
修改如下：
except Exception as f:
print "crawl failed !", f
然后我出来的是
Do you need to install the parser library？
然后我去parser.py下找错误
soup = BeautifulSoup(html_cont , "html.parser", from_encoding='utf-8')
是html.parser 不是html_parser

3 7-7 开始运行爬虫和爬取结果展示

2016-09-08

qq_路人甲_11

#利用正则表达式
import re #引入正则表达式模块

link3 = soup.find_all('a',href=re.compile(r'ill'))
for v in link3:
print(v.string)

0 6-4 BeautifulSoup实例测试

2016-09-08

feiling208

自顶向下，非常清晰啊，赞赞赞

1 7-2 调度程序

2016-09-08

DangCode

哈哈我终于改成了既没有重复url又能最先爬相关网页的了代码https://github.com/coldfreeboy/spider拿去

4 7-7 开始运行爬虫和爬取结果展示

2016-09-07

有个疑惑不知道怎么优化

最新回答 / 否则悲伤从何而来

那你唯一需要修改的就是“然后又随机选一个链接接着爬”，这边的规则应该是你自己想的算法吧建议你写一个方法，把和当前url的关键词按照某种规律，把当前页面的所有url“过滤”成自己需要的有“相关性”URL，就在UrlManger里面的get_new_url下，比如self.new_urls.getMyRulUrl(self.new_urls)

1 回答 519 浏览 7-6 HTML输出器

2016-09-07

卡住了怎么办

最新回答 / 慕粉3975934

用ctrl+c退出，Python运行比较慢

1 回答 558 浏览 7-6 HTML输出器

2016-09-07

首页上一页 141 142 143 144 145 146 147 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空