python遇见数据采集_学习笔记

首页免费课 python遇见数据采集笔记

python遇见数据采集

                
                秋名山车神
            全栈工程师

                    查看讲师更多课程 
                    秋名山车神讲师的其他课程
                
浏览器开发者工具使用技巧
初级·41712
免费课程
                                
                难度初级
            
                时长 2小时 5分
            
                学习人数
            
综合评分9.63
                            95人评价
                        查看评价
                                9.7
                                内容实用
                            
                                9.5
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

慕神2407217

Python3字符串默认使用Unicode编码，所以Python3支持多语言。
以Unicode表示的str通过encode()方法可以编码为指定的bytes。
如果bytes使用ASCII编码，遇到ASCII码表没有的字符会以\x##表示，此时只用'\x##'.decode('utf-8')就可以了

查看全部

0 采集收起来源：python读取TXT文档
2019-01-30
大余_ 05:06

发送POST请求

查看全部

0 采集收起来源：urllib基本用法
2018-12-20
大余_ 04:07

携带header

查看全部

0 采集收起来源：urllib基本用法
2018-12-20
慕仙9565262

mark

查看全部

0 采集收起来源：python数据采集-课程介绍
2018-12-13

慕娘9010613 00:44

from urllib import request
resp = request.urlopen("http://www.baidu.com")
print(resp.read().decode("utf-8"))

查看全部

0 采集收起来源：urllib基本用法

2018-11-21

慕勒6273157 00:15

urllib库

查看全部

0 采集收起来源：urllib基本用法
2018-11-08
qq_未知Shu_0 01:18

截图啊啊啊

查看全部

0 采集收起来源：查询MySQL数据
2018-11-05
慕前端6197812

输出某个页面的全部href
专业人士如何改代码，代码不是抄出来的，是改出来的

查看全部

0 采集收起来源：获取维基百科词条信息
2018-10-25
orangewangjie3473319 00:56

课程介绍

查看全部

0 采集收起来源：python数据采集-课程介绍
2018-09-30
qq_吥倣棄_0
beautiful soup
www.crummy.com/software/BeautifulSoup/#Download
1. 查找修改树形结构，提供一些工具，可以解析文档
2. 默认Unicode，utf-8
3. 支持lxml和html5lib解析器
查看全部

0 采集收起来源：BeautifulSoup简介
2018-08-16
qq_袮D影孑_03909390 02:20

爬虫注意事项

查看全部

0 采集收起来源：爬虫注意事项
2018-07-30
qq_袮D影孑_03909390 03:30

乱码的原因

查看全部

0 采集收起来源：python读取TXT文档
2018-07-29
东大街的仔

查询数据mysql

查看全部

0 采集收起来源：存储数据到MySQL
2018-07-29
千夜一梦

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id4

查看全部

0 采集收起来源：BeautifulSoup简介
2018-06-25

千夜一梦

# 爬出台湾高铁网站
from urllib.request import urlopen
from urllib.request import Request
from urllib import parse

req = Request('http://www.thsrc.com.tw/tw/TimeTable/SearchResult')
postData = parse.urlencode([
    ('StartStation', '2f940836-cedc-41ef-8e28-c2336ac8fe68'),
    ('EndStation', '977abb69-413a-4ccf-a109-0272c24fd490'),
    ('SearchDate', '2018/06/25'),
    ('SearchTime', '23:30'),
    ('SearchWay', 'DepartureInMandarin')
])

req.add_header('Origin', 'http://www.thsrc.com.tw')
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')

response = urlopen(req, data=postData.encode('utf-8'))
print(response.read().decode('utf-8'))

查看全部

0 采集收起来源：使用urllib发送post请求

2018-06-25

首页上一页 2 3 4 5 6 7 8 下一页尾页

0/150

提交

取消

开始学习

课程须知: 熟悉Python语言的语法，掌握Python的正则表达式模块，懂得如何使用Python操作数据库

老师告诉你能学到什么？: 使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取，以及robots协议和相关注意事项

微信扫码，参与3人拼团

热搜

最近搜索清空

python遇见数据采集