Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

徒然不知

你们的声音也很小吗？

0 6-3 BeautifulSoup的语法

2017-10-09

zhy755788055

全部存内存里了，这得需要多大的内存

0 8-1 课程总结

2017-10-08

_丿Duck蔚蓝_0

经典课程赞

0 4-1 Python爬虫URL管理

2017-10-08

千手高飞

各位就没有发现百度现在已经改了超级链接，以前是item/\d+\.htm可以读取，现在不可以了。

1 7-2 调度程序

2017-10-08

我在你家门口

断断续续学了两三天，需要下载Python3.x的版本，因为Python已经对2.x的版本不提供技术支持了，虽然很多第三方服务还没出匹配3.x版本的；Python下载时，虽然电脑是64位的，最好下载32位的，以防止第三方软件不支持64位的；还需要一个Pycharm，是一种Python的IDE，eclipse是针对JAVA的（下了Pycharm）；最好配套一个代码编辑器sublime text。

0 7-2 调度程序

2017-10-07

生活发言权

/Library/Frameworks/Python.framework/Versions/3.6/bin/python3.6 /Users/hugo/PycharmProjects/imooc_python/baike_spider/spider_main.py
craw 1:https://baike.baidu.com/view/21087.htm
craw failed

Process finished with exit code 0

有朋友遇到了吗？为啥？

7 7-6 HTML输出器

2017-10-06

公子十三

现在使用python3进行爬取不再那么复杂了，urllib和urllib2合成urllib了，按照如下步骤就可以爬取，
from urllib import request
def get_html(url, headers):
request.Request(url=url, headers=headers)
req = request.urlopen(url)
html = req.read().decode('gbk')
req.close()
return html
注：
1，根据自己的环境，适当的调节，比如编码
2，字数有限制，如要捕获异常，请自行添加
3，亲测，可用

5 1-1 Python开发简单爬虫课程介绍

2017-10-04

qq_皓月冷千山_0

老师在2：20处那段代码原样打进去会报错。正确形式应该是：
soup = BeautifulSoup(
'html_doc',
'html.parser',
from_encoding = 'utf8'
)

14 6-3 BeautifulSoup的语法

2017-10-04

慕粉1226435305

craw 1 :https://baike.baidu.com/item/Python
craw failed

这就是结果。。。。。

11 7-5 HTML解析器html_parser

2017-10-04

慕标6571706

已经解决
win7 python3.6 遇到乱码的情况
同明磊

只需要在fout = open('output.html', 'w', encoding = 'utf-8')
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])
这里面不能加.encode('utf-8')，加了会乱码

fout.write("<head><meta charset = 'utf-8'></head>")这个写不写无所谓，不影响

2 7-6 HTML输出器

2017-10-03

慕粉1357041190

我的第二条爬到史记上去了，然后就failed了，然后就没有然后了

4 7-7 开始运行爬虫和爬取结果展示

2017-10-03

Noah_________

先学会怎么用，然后记住怎么用，最后慢慢理解消化。

能一下子理解看懂的，不是相关知识积累特别多，就是天才，而天才只是不断努力的结果。

2 6-3 BeautifulSoup的语法

2017-10-02

blackandrechen

很好的课程，需要一定的爬虫基础，理清了思路，看不懂的建议先收藏回头再看。

0 7-2 调度程序

2017-10-01

真实的追梦者

首先要分析网页，找到特点。

0 7-1 Python爬虫实例-分析目标

2017-09-30

Mascots

https://github.com/Alalapapa/baike_spider 手打源码

2 8-1 课程总结

2017-09-28

首页上一页 28 29 30 31 32 33 34 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫