Python开发简单爬虫_学习笔记

首页免费课 Python开发简单爬虫笔记

Python开发简单爬虫

最热最新

EthingisOK

爬虫：一段自动抓取互联网信息的程序

查看全部

0 采集收起来源：爬虫是什么
2019-01-23
qq_紫戈_0

这个使用Python3.0写的，可以实现。
import urllib.request
import http.cookiejar
url = "http://www.baidu.com"
print("--------------------------------------first------------------------------------------------------------")
response1 = urllib.request.urlopen(url)
print(response1.getcode())
print(len(response1.read()))
print("---------------------------------------second---------------------------------------------------------")
request = urllib.request.Request(url)
request.add_header("user-agent","Mozilla/0.5")
response2 = urllib.request.urlopen(url)
print(response2.getcode())
print(len(response2.read()))
print("--------------------------------------third-----------------------------------------------------------")
cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
response3 = urllib.request.urlopen(url)
print(response3.getcode())
print(len(response3.read()))
print(cj)

查看全部

2 采集收起来源：Python爬虫urlib2实例代码演示
2019-01-22
sunshine_123

python37下成功运行
from urllib import request
from http import cookiejar

url = "http://www.baidu.com"

print("方法1")
response1 = request.urlopen(url)
print(response1.getcode())
print(len(response1.read()))

print("\n方法2")
rq = request.Request(url)
rq.add_header("agent", "Mozilla/5.0")
response2 = request.urlopen(rq)
print(response2.getcode())
print(len(response2.read()))

print("\n方法3")
cj = cookiejar.CookieJar()
opener = request.build_opener(request.HTTPCookieProcessor(cj))
request.install_opener(opener)
response3 = request.urlopen(url)
print(response3.getcode())
print(cj)
print(len(response3.read()))

查看全部

3 采集收起来源：Python爬虫urlib2实例代码演示
2019-01-22
失去的沉寂 01:56
```
urllib2方法2
```
查看全部

0 采集收起来源：Python爬虫urlib2下载器网页的三种方法
2019-01-21
慕圣1556544 05:23

获取所需元素

查看全部

0 采集收起来源：Python爬虫实例-分析目标
2019-01-18
慕圣1556544 00:41

三种方法记个笔记

查看全部

0 采集收起来源：Python爬虫urlib2下载器网页的三种方法
2019-01-17
yolanda1094139869 01:23

爬虫技术的价值，数据提取后分类整合。

查看全部

0 采集收起来源：爬虫技术的价值
2019-01-17
好学的滨滨 03:33

啊啊啊啊啊、

查看全部

0 采集收起来源：Python爬虫网页解析器简介
2019-01-14
慕神5593097 00:07

你男朋友

查看全部

0 采集收起来源：Python开发简单爬虫课程介绍
2019-01-09
学霸天下之天天向上

https://www.cnblogs.com/xiao-a啪啪le36/p/8433400.html

查看全部

0 采集收起来源：Python爬虫urlib2下载器网页的三种方法
2019-01-09
宋波丶

网页解析器

结构化解析-DOM

查看全部

0 采集收起来源：Python爬虫网页解析器简介
2019-01-03
宋波丶

python爬虫实例代码演示

查看全部

0 采集收起来源：Python爬虫urlib2实例代码演示
2019-01-03
宋波丶

该下载器有以下三种下载方法：
①最简洁的方法：给定一个URL，将其传送给urllib2的urlopen方法，就可以实现。对应代码如下：

②添加http header向服务器提交http的头信息，添加data可以向服务器提交需要用户输入的数据，

我们生成三个参数，将其传送给request类，生成一个request对象，再用urllib2的urlopen方法以request为参数，发送网页请求。

③添加特殊情景的处理器：
例：有的网页需要用户登录才能访问，我们就需要添加cookie的处理，我们使用HTTPCookieProcessor；有的网页需要代理才能访问，我们使用ProxyHandle；有的网页的协议是HTTPS加密访问的，我们使用HTTPSHandler；有的网页的URL是相互自动的跳转，我们使用HTTPRedirectHandler。

将这些handler传送给urllib2的bulid_opener方法来创建对象，我们给urllib2再install这个opener，这样这个urllib2就具有了处理这些场景的能力，然后依然并用urlopen方法来请求一个URL，或请求一个request实现网页的下载。

查看全部

0 采集收起来源：Python爬虫urlib2下载器网页的三种方法
2019-01-02
weibo_慕少4481679

最简洁方法

查看全部

0 采集收起来源：Python爬虫urlib2下载器网页的三种方法
2019-01-02
AatroxC
折腾了几个小时，乱码问题终于解决了
UnicodeEncodeError: 'gbk' codec can't encode character ‘xxx’
类似这种异常，因为在从网页上下载的页面是utf-8编码，默认情况下向硬盘中写入是用gbk编码，即要用 gbk 将 utf8 编码转换为gbk编码。
我们知道utf8可以保存所有的字符，gbk作为中文编码肯定有些字符识别不了，此时只要在打开文件时指定编码：
```
fout = open("d:/xxx.html", 'a', encoding='utf-8')
```
完美解决！
查看全部

1 采集收起来源：开始运行爬虫和爬取结果展示
2019-01-01

首页上一页 33 34 35 36 37 38 39 下一页尾页

0/150

提交

取消

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫

UnicodeEncodeError: 'gbk' codec can't encode character ‘xxx’

`UnicodeEncodeError: 'gbk' codec can't encode character ‘xxx’`