Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

Vito_Two

可以把table，td改成a，p，输出的html会整齐些
for data in self.datas:
fout.write('<a href="%s">%s</a>' % (data['url'],data['title']))
fout.write('<p>%s</p>' % data['summary'])

0 7-7 开始运行爬虫和爬取结果展示

2017-08-12

慕粉3209772

这个老师python代码的风格都像在写JAVA 听着听着还以为是java教学

10 7-3 URL管理器

2017-08-12

伦子伦子

老师写的后可能为了代码清晰没有加注释,后面你可能看不懂了,自己跟着敲的时候,最好把注释写上去.而且写注释是一个良好的编程习惯

5 7-3 URL管理器

2017-08-12

伦子伦子

如果先写方法再写调用,那么你可能不知道这个类要写一些什么功能函数,但是把主函数所需要的功能列出来,那么这些被调用的类所需要的功能不就很清晰了

1 7-2 调度程序

2017-08-12

耿海峰

import urllib.request,http.cookiejar

cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
response3 = urllib.request.urlopen(url)
print (response3.getcode())
print (len(response2.read()))
print (cj)

1 5-3 Python爬虫urlib2实例代码演示

2017-08-12

判官_

真难受，我学的是3.x版本的

0 5-2 Python爬虫urlib2下载器网页的三种方法

2017-08-11

慕函数5409460

声明download的时候不要用response = urllib.request.urlopen(url)；因为response已经被python占用，可以改为resp = urllib.request.urlopen(url)；这样就不会出现response没有getcode用法的问题了

5 7-4 HTML下载器html_downloader

2017-08-11

<2.7 无法用getcode？

最新回答 / 爱上你没道理

额，说错了，是python 3中取消了urllib2，在3中需要导入urllib.request

7 回答 1420 浏览 5-3 Python爬虫urlib2实例代码演示

2017-08-11

爱上你没道理

本萌新彻底被老师的声音懵了

0 4-1 Python爬虫URL管理

2017-08-11

爬取程序运行错误

最新回答 / 慕用0075214

把import前面的去掉直接import

1 回答 723 浏览 7-7 开始运行爬虫和爬取结果展示

2017-08-10

有错误求解决 errno 10054

最新回答 / 白兰地加冰苏打水

因为你用的是urlopen去下载网页，网页本身就是存在一定的保护性，你一直下载，网页就会自动的拒绝你，不让你下载，所以你就无法读取到得到html从而无法解析，就一直卡卡卡，然后就崩啦，啦啦啦啦啦

2 回答 1707 浏览 7-5 HTML解析器html_parser

2017-08-10

请问如果用python3老师讲的爬虫把模块换了就可以了吗？有源码吗？

最新回答 / 勤梦幻岛首饰

python3没有urllib2；并且使用urlopen 需要先导入 from urllib import requestrequest.urlopen()

1 回答 833 浏览 7-2 调度程序

2017-08-09

chikuangren

import beautifulsoup4 会报错；
import bs4 就可以了

0 6-4 BeautifulSoup实例测试

2017-08-09

qq_东林_1

哈哈，还长着哪！

0 8-1 课程总结

2017-08-09

mango8853

我觉得应该在add_new_urls方法下for循环中添加一个if判断，判断下获取的url是否在old_urls中。

for url in urls:

if url not in self.old_urls:

self.new_urls.add(url);
——————————————————————————————
根本不需要啊，老师的add_new_urls()这个函数是调用add_new_url()来加入，add_new_url()里面已经有判断了，你这样不是多此一举？

0 7-3 URL管理器

2017-08-08

首页上一页 73 74 75 76 77 78 79 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空