Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

HAHAHA_10

有没有最近入坑一起学的，加个扣交流吧~597223276

0 7-2 调度程序

2017-11-06

没有生成html文件

最新回答 / qq_一口一个小朋友_0

极有可能是你output里面内容写错了，没报错成功爬取出地址的话仔细检查下代码

2 回答 1060 浏览 7-7 开始运行爬虫和爬取结果展示

2017-11-06

qq_风龙_0

如果考虑版权，专利，这样做就是违法。考虑版权，貌似只能做聚合，用于展示图片，链接都是别人的。这让我想到了淘宝客，阿里妈妈，京东快车，广告联盟，瞬间燃起激情。再想到羞羞网站，估计顶不住了！?

3 2-2 爬虫技术的价值

2017-11-05

isLennon

https://github.com/isliqian/baike_spider

1 7-7 开始运行爬虫和爬取结果展示

2017-11-05

慕粉3151360

现在网址已经变成http://baike.baidu.com/item/Python，我们抓这个新网址需要修改成这句links = soup.find_all('a', href=re.compile(r"/item/(.*)"))

5 7-2 调度程序

2017-11-04

慕粉1735404009

新手还是把try except去掉吧根据提示慢慢改代码就改出来了

python 3.X 版本

https://github.com/dagou1992/baike_spider

1 7-7 开始运行爬虫和爬取结果展示

2017-11-04

用BeautifulSoup(re.text, lxml)，关于beautifulsoup 与 lxml 的问题

最新回答 / 慕九州1555680

看起来像是lxml没装好，重装一下试试：pip3 install lxml

1 回答 6627 浏览 6-4 BeautifulSoup实例测试

2017-11-04

慕粉1735404009

import urllib.request, http.cookiejar

urllib2 = urllib.request

cj = http.cookiejar.CookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

urllib2.install_opener(opener)

res = urllib2.urlopen('http://www.baidu.com')

cont = res.read()

if res.getcode() == 200:
print(cont)

1 5-3 Python爬虫urlib2实例代码演示

2017-11-04

JayceDeng

老师讲的很好，实现的方法都罗列出来了。简练不啰嗦。

3 5-2 Python爬虫urlib2下载器网页的三种方法

2017-11-03

慕桂英8256984

老师讲得太好了！作为小白通过课程对爬虫有了一个清楚的认知，也点燃了继续学习的热情~~谢谢老师~~

2017-11-02

慕尼黑4543992

老师的的教程还是很详细的，而且分块也很清晰，基本可以作为后续开发的模板，感谢感谢

1 7-6 HTML输出器

2017-11-01

劝君惜取少年时

class HtmlDownloader(object):

def download(self,url):
if url is None:
return None

reponse=urllib2.urlopen(url)

if response.getcode() != 200:
return None

return response.read()

1 7-4 HTML下载器html_downloader

2017-10-30

劝君惜取少年时

getcode() 200页面请求的状态值，
分别有：
200请求成功、
303重定向、
400请求错误、
401未授权、
403禁止访问、
404文件未找到、
500服务器错误

3 7-4 HTML下载器html_downloader

2017-10-30

劝君惜取少年时

except:
print'craw failed'

0 7-2 调度程序

2017-10-30

劝君惜取少年时

count = 1
print 'craw %d : %s ' % (count,new_url)

if count ==1000:
break

count = count +1

0 7-2 调度程序

2017-10-30

风的旋律3572868

编辑器推荐PyCharm很好上手，代码有提示，比eclipse还方便

3 7-2 调度程序

2017-10-30

首页上一页 57 58 59 60 61 62 63 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空