Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

激斗龙图腾

老师讲得很好很清楚！

0 4-1 Python爬虫URL管理

2016-01-04

戮鹧

比u特佛色谱（beautifulsoup）？我笑了好久

1 1-1 Python开发简单爬虫课程介绍

2016-01-04

只能爬一次就不爬了

最新回答 / WallonLst

这个我也遇到了，你那边最后是哪里错误了

3 回答 1243 浏览 7-7 开始运行爬虫和爬取结果展示

2016-01-04

小明

python3爬虫实例源码 https://github.com/fifths/python_baike_spider.git

19 8-1 课程总结

2016-01-03

小明

python3爬虫实例源码 https://github.com/fifths/python_baike_spider.git

3 7-7 开始运行爬虫和爬取结果展示

2016-01-03

小明

python3爬虫实例 https://github.com/fifths/python_baike_spider.git

10 7-3 URL管理器

2016-01-03

小明

print('第三种方法')

cj = http.cookiejar.CookieJar()

opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

urllib.request.install_opener(opener)

response3 = urllib.request.urlopen(url)

print(response3.getcode())

print(cj)

print(response3.read())

0 5-3 Python爬虫urlib2实例代码演示

2016-01-03

小明

print('第二种方法')

req = urllib.request.Request(url)

req.add_header('user-agent', 'Mozilla/5.0')

response2 = urllib.request.urlopen(req)

print(response2.getcode())

print(len(response2.read()))

0 5-3 Python爬虫urlib2实例代码演示

2016-01-03

小明

python3

import urllib.request
url = "http://www.baidu.com"
print('第一种方法')

response1=urllib.request.urlopen(url)
print(response1.getcode())
print(len(response1.read()))

0 5-3 Python爬虫urlib2实例代码演示

2016-01-03

关于正则表达式无法匹配到内容

最新回答 / hack2012

百度百科的文档结尾是htm，你写个html当然是抓不到任何东西了。

1 回答 877 浏览 7-5 HTML解析器html_parser

2016-01-03

没报错，但只输出了一条记录，第二条就failed，然后就没了

已采纳回答 / 戴暉

仔细看看你的代码哪里写的有问题，估计是不仔细。或者是你爬的网页有问题，换个东西爬爬看

4 回答 1127 浏览 7-7 开始运行爬虫和爬取结果展示

2016-01-02

python 编码问题

最新回答 / 啊B

代码开头加一句 <...code...>

2 回答 926 浏览 8-1 课程总结

2016-01-02

deTrident

import sys
...
type = sys.getfilesystemencoding()
...
fout.write("<td>%s</td>" % data['title'].encode(type))

1 7-5 HTML解析器html_parser

2016-01-02

deTrident

outputer在data['title'].encode('utf-8')后，内容乱码，怎么办

3 7-5 HTML解析器html_parser

2016-01-02

老师怎么爬取js页面

最新回答 / 小楠仔子

你说的js页面应该是指动态加载数据的js方法，而这些js调用方法一般会调用特定的API返回json数据，所以直接访问api然后解析返回的json数据是一种解决方案。我也是初学，有不对的地方见谅。

2 回答 1126 浏览 2-2 爬虫技术的价值

2016-01-02

首页上一页 189 190 191 192 193 194 195 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空