python遇见数据采集_学习笔记

首页免费课 python遇见数据采集笔记

python遇见数据采集

                
                秋名山车神
            全栈工程师

                    查看讲师更多课程 
                    秋名山车神讲师的其他课程
                
浏览器开发者工具使用技巧
初级·41712
免费课程
                                
                难度初级
            
                时长 2小时 5分
            
                学习人数
            
综合评分9.63
                            95人评价
                        查看评价
                                9.7
                                内容实用
                            
                                9.5
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

霜花似雪 02:20

检查是否安装成功

查看全部

0 采集收起来源：python开发环境搭建
2019-09-14
Being_yourself 04:42

检验python及其他是否安装成功

查看全部

0 采集收起来源：python开发环境搭建
2019-05-20
Being_yourself 03:28

安装完python后，再安装beautifulsoup4

查看全部

0 采集收起来源：python开发环境搭建
2019-05-20
慕容7012403

from url.requst import urlopen
from bs4 import BeautifulSoup
import re
#获取网页源代码
resp= urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")
#解析？网页
soup = BeautifulSoup(resp."html.parse")
#获取所有以/wiki/开头的链接
urls = soup.findAll('a',href=re.compeil("^/wiki/"))
#获取链接内容
for uls in urls:
if not re.search("/.(jpg|JPG)$"，url["href"])
print(url.get_text(),url["href"])

查看全部

0 采集收起来源：获取维基百科词条信息
2019-03-10
慕容7012403

soup = bs(html_doc,"html.parse")

print(soup.title.string)#当title不止一个时会报错
print(soup.title.get_text())
print(soup.a)
print(soup.find(id="link2").get_text)
print(soup.find(id="link2").string)
#print(soup.findAll("a").string)
for link in soup.findAll("a"):
print(link.string)
print(soup.find("p",{"class":"story"}))

查看全部

0 采集收起来源：BeautifulSoup使用
2019-03-10
慕容7012403

post（异步加载的应用）：表单的内容记一下和有两个请求头（来源和头）

查看全部

1 采集收起来源：使用urllib发送post请求
2019-03-10
慕容7012403

post是应用在响应对象中（即要求你下指令之后网页响应的信息）
谷歌内可以使用postman进行查看你想要响应的对象内容是什么

查看全部

0 采集收起来源：使用urllib发送post请求
2019-03-10
慕容7012403

反爬虫还有一个：origin

查看全部

0 采集收起来源：使用urllib发送post请求
2019-03-10
慕容7012403

携带请求头的爬虫是最简单的反爬虫的方法：
rep = requst.Requst(url)
rep.add_header(key,value)
resp = request.urlopen(req)
print(resp.read().decode("utf-8")

查看全部

0 采集收起来源：urllib基本用法
2019-03-10
RUNCENT 00:41

读取文件方式

查看全部

0 采集收起来源：python读取PDF文档(二)
2019-02-26
慕容7012403

Python安装pip

查看全部

0 采集收起来源：python数据采集-课程介绍
2019-02-23
RUNCENT 05:55

使用post2

查看全部

0 采集收起来源：urllib基本用法
2019-02-05
RUNCENT 05:48

使用post1

查看全部

0 采集收起来源：urllib基本用法
2019-02-05
RUNCENT 02:39

模拟浏览器访问

查看全部

0 采集收起来源：urllib基本用法
2019-02-03
RUNCENT 00:47

urllib

查看全部

0 采集收起来源：urllib基本用法
2019-02-03

首页上一页 1 2 3 4 5 6 7 下一页尾页

0/150

提交

取消

开始学习

课程须知: 熟悉Python语言的语法，掌握Python的正则表达式模块，懂得如何使用Python操作数据库

老师告诉你能学到什么？: 使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取，以及robots协议和相关注意事项

微信扫码，参与3人拼团

热搜

最近搜索清空

python遇见数据采集