Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

daidai190

爬虫
url管理器
网页下载器
网页解析器（解析：url、有用数据）

0 3-1 Python简单爬虫架构

2016-02-15

ctrl+1

最新回答 / Roc_J

我的可以啊。你把光标定位在那个方法后面

1 回答 823 浏览 7-2 调度程序

2016-02-14

我的名字叫浩仔丶

2与3差别较多，只能多google了

0 7-5 HTML解析器html_parser

2016-02-14

Zhenyu1990

为什么我的抓取慢的要死，一个页面好几秒

0 8-1 课程总结

2016-02-14

Effortjohn

我按教程写的百度百科爬虫源代码（略加修改）：
https://github.com/effortjohn/baike_spider

2 7-7 开始运行爬虫和爬取结果展示

2016-02-13

只有两个结果，第二个网址是锁定词条的百科

最赞回答 / 梨狗子

检查一下html_parser中_get_new_urls方法的return new_urls语句的缩进。应放在for循环外

2 回答 1141 浏览 7-6 HTML输出器

2016-02-13

yoyojn

print u'第三种方法'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print len(response3.read())
print cj
print response3.read()

0 5-3 Python爬虫urlib2实例代码演示

2016-02-12

yoyojn

我的代码，改正了一些错误，可以运行。
# coding:utf-8
import urllib2
import cookielib

url = "http://www.baidu.com"

print u'第一种方法'
response1 = urllib2.urlopen(url)
print response1.getcode()
print len(response1.read())

2 5-3 Python爬虫urlib2实例代码演示

2016-02-12

Effortjohn

复制笔记的代码时注意缩进，，，我在_get_new_urls函数里把return new_urls写进for循环里了，结果循环一次就返回了链接，所以整个程序爬了一个链接就停了。

7 7-5 HTML解析器html_parser

2016-02-12

mac系统下面完全没讲解

+ 我来回答回答最高可+2积分

0 回答 506 浏览

2016-02-12

elel

老师讲的的确很有激情铿锵有力！！！

0 4-1 Python爬虫URL管理

2016-02-11

zhangts

挺好的，思路清晰

0 8-1 课程总结

2016-02-10

输出的是这样的乱码怎么办？

最赞回答 / Effortjohn

html_outputer代码里，在写入<html>和<body>之间，再写入<head><meta charset="utf-8"></head>像下面这样： fout=open('output.html','w') fout.write("<html>") fout.write("<body>") fout.write("<head>") ...

3 回答 1730 浏览 7-7 开始运行爬虫和爬取结果展示

2016-02-10

东吃

感谢，挺不错地

0 8-1 课程总结

2016-02-08

whabc100

还在讲python2.x,无语！
就像和现代人讲活字印刷一样好笑!

0 5-2 Python爬虫urlib2下载器网页的三种方法

2016-02-08

多收能量多种树

不能更清晰了！

0 3-2 Python简单爬虫架构的动态运行流程

2016-02-07

首页上一页 182 183 184 185 186 187 188 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空