python遇见数据采集_学习笔记

首页免费课 python遇见数据采集笔记

python遇见数据采集

                
                秋名山车神
            全栈工程师

                    查看讲师更多课程 
                    秋名山车神讲师的其他课程
                
浏览器开发者工具使用技巧
初级·41712
免费课程
                                
                难度初级
            
                时长 2小时 5分
            
                学习人数
            
综合评分9.63
                            95人评价
                        查看评价
                                9.7
                                内容实用
                            
                                9.5
                                简洁易懂
                            
                                9.7
                                逻辑清晰

最热最新

iphp

#!/usr/bin/env python  
# encoding: utf-8

from urllib.request import urlopen

req = urlopen("https://en.wikipedia.org/robots.txt")

print(req.read().decode('utf-8'))

查看全部

1 采集收起来源：python读取TXT文档

2018-04-11

iphp

#!/usr/bin/env python  
# encoding: utf-8

import pymysql

connection = pymysql.connect(host='localhost',
                            user='root',
                            password='',
                            db='wiki',
                            charset='utf8')
try:
    with connection.cursor() as cursor:
        sql = "select `urlname`, `urlhref` from `urls` where `id` is not null"
        count = cursor.execute(sql)
        print(count)

        #result = cursor.fetchall()
        #print(result)

        result = cursor.fetchmany(size=5)
        print(result)



finally:
    connection.close()

查看全部

0 采集收起来源：查询MySQL数据

2018-04-11

iphp

#!/usr/bin/env python  
# encoding: utf-8

#引入开发包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import pymysql


resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")
soup = BeautifulSoup(resp, "html.parser")

listUrls = soup.find_all("a", href=re.compile("^/wiki/"))

#print(listUrls)
connection = pymysql.connect(host='localhost',
                            user='root',
                            password='',
                            db='wiki',
                            charset='utf8')
print(connection)
try:
    with connection.cursor() as cursor:
        for url in listUrls:
            if not re.search("\.(jpg|jpeg)$", url['href']):
                sql = "insert into `urls`(`urlname`,`urlhref`)values(%s, %s)"
                #print(sql)
                #print(url.get_text())
                cursor.execute(sql, (url.get_text(), "https://en.wikipedia.org" + url["href"]))
                connection.commit()
finally:
    connection.close();

查看全部

0 采集收起来源：存储数据到MySQL

2018-04-11

SiriSu 00:45

urllib

查看全部

0 采集收起来源：urllib基本用法
2018-04-07
茶默sh 09:45

python3 乱码解决

查看全部

0 采集收起来源：python读取TXT文档
2018-03-30
茶默sh 08:57

mark

查看全部

0 采集收起来源：python读取TXT文档
2018-03-30
盛世荒唐丶 05:54

导入模块
1.读取网页信息
2.对读取到的信息进行排版
3.对排版过的数据进行二次获取操作。
4.打印结果

查看全部

1 采集收起来源：获取维基百科词条信息
2018-03-26
慕粉3824845 12:46

读取在线PDF

查看全部

0 采集收起来源：python读取PDF文档(二)
2018-03-19
慕粉3824845 12:28

获取维基百科词条

查看全部

0 采集收起来源：获取维基百科词条信息
2018-03-15
慕的地8468217 01:40

值得一看，爬取数据

查看全部

0 采集收起来源：python数据采集-课程介绍
2018-03-13
慕设计8526992 08:18

用urllib发送post请求；访问有的网站需要添加 origins、user agent 来表明自己不是爬虫否则会报错

查看全部

0 采集收起来源：使用urllib发送post请求
2018-02-22
慕设计8526992 00:20

urllib模拟真实浏览器操作

查看全部

0 采集收起来源：urllib基本用法
2018-02-22
herohacker 02:32

检测python是否安装成功命令

查看全部

0 采集收起来源：python开发环境搭建
2018-02-01
慕九州633462

使用decode("utf-8")可以防止乱码

查看全部

0 采集收起来源：python读取TXT文档
2018-03-22
慕九州633462

https://en.wikipedia.org/robots.txt

查看全部

0 采集收起来源：python读取TXT文档
2018-01-26

首页上一页 4 5 6 7 8 9 10 下一页尾页

0/150

提交

取消

开始学习

课程须知: 熟悉Python语言的语法，掌握Python的正则表达式模块，懂得如何使用Python操作数据库

老师告诉你能学到什么？: 使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取，以及robots协议和相关注意事项

微信扫码，参与3人拼团

热搜

最近搜索清空

python遇见数据采集