Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

伦子伦子

老师写的后可能为了代码清晰没有加注释,后面你可能看不懂了,自己跟着敲的时候,最好把注释写上去.而且写注释是一个良好的编程习惯

5 7-3 URL管理器

2017-08-12

伦子伦子

如果先写方法再写调用,那么你可能不知道这个类要写一些什么功能函数,但是把主函数所需要的功能列出来,那么这些被调用的类所需要的功能不就很清晰了

1 7-2 调度程序

2017-08-12

耿海峰

import urllib.request,http.cookiejar

cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
response3 = urllib.request.urlopen(url)
print (response3.getcode())
print (len(response2.read()))
print (cj)

1 5-3 Python爬虫urlib2实例代码演示

2017-08-12

判官_

真难受，我学的是3.x版本的

0 5-2 Python爬虫urlib2下载器网页的三种方法

2017-08-11

慕函数5409460

声明download的时候不要用response = urllib.request.urlopen(url)；因为response已经被python占用，可以改为resp = urllib.request.urlopen(url)；这样就不会出现response没有getcode用法的问题了

5 7-4 HTML下载器html_downloader

2017-08-11

爱上你没道理

本萌新彻底被老师的声音懵了

0 4-1 Python爬虫URL管理

2017-08-11

chikuangren

import beautifulsoup4 会报错；
import bs4 就可以了

0 6-4 BeautifulSoup实例测试

2017-08-09

qq_东林_1

哈哈，还长着哪！

0 8-1 课程总结

2017-08-09

mango8853

我觉得应该在add_new_urls方法下for循环中添加一个if判断，判断下获取的url是否在old_urls中。

for url in urls:

if url not in self.old_urls:

self.new_urls.add(url);
——————————————————————————————
根本不需要啊，老师的add_new_urls()这个函数是调用add_new_url()来加入，add_new_url()里面已经有判断了，你这样不是多此一举？

0 7-3 URL管理器

2017-08-08

GreenRay

1.root_url = "http://baike.baidu.com/item/Python";
2.links = soup.find_all('a', href=re.compile(r'/item/'));

0 8-1 课程总结

2017-08-08

1Mz

同时 --> 疼时

1 6-1 Python爬虫网页解析器简介

2017-08-08

labixx

Python2.7安装方法：
sudo python2.7 -m pip install --upgrade pip
sudo python -m pip install beautifulsoup4 储存在python2.7/site-packages

python3安装方法
pip3 install beautifulsoup4 #安装Python中会自带pip3.使用pip3安装的模块会储存在python3.6/site-packages

2 6-2 BeautifulSoup模块介绍和安装

2017-08-08

labixx

python3中第三种方法需要添加模块
import http.cookiejar

2 5-3 Python爬虫urlib2实例代码演示

2017-08-08

慕姐1632040

教程源码：https://github.com/huazhicai/imooc/tree/master/spider

4 7-1 Python爬虫实例-分析目标

2017-08-07

Simon_0005

学习模仿的代码：https://git.oschina.net/xiedongji/spider_demo.git

1 1-1 Python开发简单爬虫课程介绍

2017-08-07

首页上一页 35 36 37 38 39 40 41 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫