为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
  • 在文档中可以查看一些 html 解析器
    查看全部
    0 采集 收起 来源:BeautifulSoup使用

    2016-08-27

  • #coding=utf-8 from urllib import request #-------------------------------------------------------------------------- #模拟浏览器登陆,加上头信息 # req = request.Request("http://www.baidu.com") # req.add_header("User-Agent","Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0") # # resp = request.urlopen(req) # print(resp.read().decode('utf-8')) #-------------------------------------------------------------------------- #一开始这样也能实现读取,即不模拟浏览器,直接用urllib打开 # resp = request.urlopen("http://www.baidu.com") # print(resp.read().decode('utf-8')) #--------------------------------------------------------------------------
    查看全部
    3 采集 收起 来源:urllib基本用法

    2018-03-22

  • #coding=utf-8 #获取post信息 from urllib import request from urllib import parse req = request.Request("http://www.thsrc.com.tw/tw/TimeTable/SearchResult") #元祖传入键值对的形式传入,post请求 postData=parse.urlencode([ ("StartStation", "2f940836-cedc-41ef-8e28-c2336ac8fe68"), ("EndStation", "fbd828d8-b1da-4b06-a3bd-680cdca4d2cd"), ("SearchDate", "2016/08/26"), ("SearchTime", "16:30"), ("SearchWay", "ArrivalInMandarin") ]) #每输入一个就是添加一个头,可以添加多个头 req.add_header("Host", "www.thsrc.com.tw") req.add_header("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0") resp = request.urlopen(req) print(resp.read().decode('utf-8'))
    查看全部
  • 网站查看格式
    查看全部
  • 这里就是一次访问的信息,其中一般要带上第27条和第30条<br> 第27条表明我们是从哪里开始的这个查询,第30条表明了操作系统和浏览器的信息<br> 这两条信息一般可以证明不是爬虫 当然不一定每次都需要携带上诉消息,有些网站是不会检查的,不过携带的情况下会更好 34行到38行,就是一些POST请求的内容,需要把这些内容发送给对方进行请求 信息再浏览器的查看元素,网络 html 右部的选项中
    查看全部
  • 以台湾高铁网为例,查看一次请求发送的内容 用浏览器的查看元素,网络选项进行查看,查看的同时,选取文字版本,过滤其他信息 点击查询按钮 然后一次请求就发生了,点开查看请求的信息,
    查看全部
  • post使用方法
    查看全部
    0 采集 收起 来源:urllib基本用法

    2016-08-26

  • 使用psot请求 比如提交表单数据的时候
    查看全部
    0 采集 收起 来源:urllib基本用法

    2016-08-26

  • 如图所示,从浏览器获得的值输入此,即可
    查看全部
    0 采集 收起 来源:urllib基本用法

    2016-08-26

  • 从浏览器中查看,这些信息表明,这是一个真的浏览器,而不是一个爬虫 有些网站就根据有没有携带这个头来判断是不是一个爬虫
    查看全部
    0 采集 收起 来源:urllib基本用法

    2016-08-26

  • 模拟真实浏览器
    查看全部
    0 采集 收起 来源:urllib基本用法

    2016-08-26

  • 课程介绍
    查看全部
  • 先导三门课
    查看全部
  • urllib使用步骤
    查看全部
    0 采集 收起 来源:urllib基本用法

    2016-08-26

  • pip install beautifulsoup4 安装beautifulsoup4
    查看全部

举报

0/150
提交
取消
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!