python遇见数据采集_学习笔记

首页免费课 python遇见数据采集笔记

python遇见数据采集

                
                秋名山车神
            全栈工程师

                    查看讲师更多课程 
                    秋名山车神讲师的其他课程
                
浏览器开发者工具使用技巧
初级·41712
免费课程
                                
                难度初级
            
                时长 2小时 5分
            
                学习人数
            
综合评分9.63
                            95人评价
                        查看评价
                                9.7
                                内容实用
                            
                                9.5
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

顾小北 04:00

在文档中可以查看一些　ｈｔｍｌ　解析器

查看全部

0 采集收起来源：BeautifulSoup使用
2016-08-27
顾小北

#coding=utf-8 from urllib import request #-------------------------------------------------------------------------- #模拟浏览器登陆，加上头信息 # req = request.Request("http://www.baidu.com") # req.add_header("User-Agent","Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0") # # resp = request.urlopen(req) # print(resp.read().decode('utf-8')) #-------------------------------------------------------------------------- #一开始这样也能实现读取，即不模拟浏览器，直接用ｕｒｌｌｉｂ打开 # resp = request.urlopen("http://www.baidu.com") # print(resp.read().decode('utf-8')) #--------------------------------------------------------------------------

查看全部

3 采集收起来源：urllib基本用法
2018-03-22
顾小北

#coding=utf-8 #获取ｐｏｓｔ信息 from urllib import request from urllib import parse req = request.Request("http://www.thsrc.com.tw/tw/TimeTable/SearchResult") #元祖传入键值对的形式传入，ｐｏｓｔ请求 postData=parse.urlencode([ ("StartStation", "2f940836-cedc-41ef-8e28-c2336ac8fe68"), ("EndStation", "fbd828d8-b1da-4b06-a3bd-680cdca4d2cd"), ("SearchDate", "2016/08/26"), ("SearchTime", "16:30"), ("SearchWay", "ArrivalInMandarin") ]) #每输入一个就是添加一个头，可以添加多个头 req.add_header("Host", "www.thsrc.com.tw") req.add_header("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0") resp = request.urlopen(req) print(resp.read().decode('utf-8'))

查看全部

0 采集收起来源：使用urllib发送post请求
2018-03-22
顾小北 05:38

网站查看格式

查看全部

0 采集收起来源：使用urllib发送post请求
2016-08-26
顾小北 01:18

这里就是一次访问的信息，其中一般要带上第２７条和第３０条<br> 第２７条表明我们是从哪里开始的这个查询，第３０条表明了操作系统和浏览器的信息<br> 这两条信息一般可以证明不是爬虫当然不一定每次都需要携带上诉消息，有些网站是不会检查的，不过携带的情况下会更好３４行到３８行，就是一些ＰＯＳＴ请求的内容，需要把这些内容发送给对方进行请求信息再浏览器的查看元素，网络　ｈｔｍｌ　右部的选项中

查看全部

0 采集收起来源：使用urllib发送post请求
2018-03-22
顾小北 00:19

以台湾高铁网为例，查看一次请求发送的内容用浏览器的查看元素，网络选项进行查看，查看的同时，选取文字版本，过滤其他信息点击查询按钮然后一次请求就发生了，点开查看请求的信息，

查看全部

0 采集收起来源：使用urllib发送post请求
2016-08-26
顾小北 06:10

ｐｏｓｔ使用方法

查看全部

0 采集收起来源：urllib基本用法
2016-08-26
顾小北 05:13

使用ｐｓｏｔ请求比如提交表单数据的时候

查看全部

0 采集收起来源：urllib基本用法
2016-08-26
顾小北 04:51

如图所示，从浏览器获得的值输入此，即可

查看全部

0 采集收起来源：urllib基本用法
2016-08-26
顾小北 03:26

从浏览器中查看，这些信息表明，这是一个真的浏览器，而不是一个爬虫有些网站就根据有没有携带这个头来判断是不是一个爬虫

查看全部

0 采集收起来源：urllib基本用法
2016-08-26
顾小北 02:32

模拟真实浏览器

查看全部

0 采集收起来源：urllib基本用法
2016-08-26
顾小北 02:08

课程介绍

查看全部

0 采集收起来源：python数据采集-课程介绍
2016-08-26
ICHAYA 01:17

先导三门课

查看全部

0 采集收起来源：python数据采集-课程介绍
2016-08-26
王小达 00:36

urllib使用步骤

查看全部

0 采集收起来源：urllib基本用法
2016-08-26
杨润康Bla

pip install beautifulsoup4 安装beautifulsoup4

查看全部

0 采集收起来源：python开发环境搭建
2016-08-26

首页上一页 21 22 23 24 25下一页尾页

0/150

提交

取消

开始学习

课程须知: 熟悉Python语言的语法，掌握Python的正则表达式模块，懂得如何使用Python操作数据库

老师告诉你能学到什么？: 使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取，以及robots协议和相关注意事项

微信扫码，参与3人拼团

热搜

最近搜索清空

python遇见数据采集