为了账号安全,请及时绑定邮箱和手机立即绑定

python遇见数据采集

难度初级
时长 2小时 5分
学习人数
综合评分9.63
95人评价 查看评价
9.7 内容实用
9.5 简洁易懂
9.7 逻辑清晰
  • 使用步骤
    查看全部
    0 采集 收起 来源:urllib基本用法

    2017-10-05

  • 如果Windows有2.x和3.x两种版本,但执行pip3 install beautifulsoup4 提示pip3不是内部命令无法执行时,是因为你安装3.x版本中Scripts目录中没有pip3.exe文件,可能原因是你安装过程中出现问题,导致该版本部分东西丢失,可以重新下载一个新版本。(我下载的3.6.2,由于多次安装多次都无法卸载,导致版本又问题,重新下载了一个3.5.1的版本,问题解决)
    查看全部
  • 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
    查看全部
    1 采集 收起 来源:BeautifulSoup简介

    2017-09-16

  • # coding:utf-8 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice from pdfminer.layout import LAParams from pdfminer.converter import PDFPageAggregator fp = open("1.pdf","rb") # 打开对象,使用二进制方式 parser = PDFParser(fp) # 创建对应的解释器,传入文件对象,可理解为解释文件 doc = PDFDocument() # 创建文档对象 parser.set_document(doc) # 两步方法将fp的解释器和doc文档关联起来 doc.set_parser(parser) # 两步方法将fp的解释器和doc文档关联起来 doc.initialize() # 关联了解释器的文档,进行初始化 resource = PDFResourceManager() # 创建pdf的资源管理器 laparams = LAParams() # 创建pdf的参数分析器 device = PDFPageAggregator(resource,laparams=laparams) # 使用聚合器将资源管理器和参数分析器聚合在一起 interpreter = PDFPageInterpreter(resource,device) # 创建页面解析器,将资源管理器和聚合其结合在一起 for page in doc.get_pages(): # 获取文档对象的每一页 interpreter.process_page(page) # 使用页面解析器解析每一页 layout = device.get_result() # 使用聚合其获取解析的结果 for out in layout: # 遍历获取的结果 print(out.get_text()) # 输出
    查看全部
  • 读取PDF3
    查看全部
  • 读取PDF2
    查看全部
  • 读取PDF1
    查看全部
  • url
    查看全部
    0 采集 收起 来源:urllib基本用法

    2017-08-19

  • import urllib.request from pdfminer.pdfparser import PDFDocument,PDFParser from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter,PDFTextExtractionNotAllowed from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams,LTTextBoxHorizontal fp=open('802741466496787.pdf','rb') #fp=urllib.request.urlopen('https://www.tencent.com/zh-cn/articles/802741466496787.pdf') parser=PDFParser(fp) doc=PDFDocument(fp) parser.set_document(doc) doc.set_parser(parser) doc.initialize('') if not doc.is_extractable: raise PDFTextExtractionNotAllowed else: manager=PDFResourceManager() params=LAParams() device=PDFPageAggregator(manager,laparams=params) inter=PDFPageInterpreter(manager,device) for page in doc.get_pages(): inter.process_page(page) layout=device.get_result() for x in layout: if isinstance(x,LTTextBoxHorizontal): print(x.get_text()) 到腾讯那里下个文档终于成功
    查看全部
  • find('p',class_='classname')也可以写成find('p',{'class':'classname'})
    查看全部
    0 采集 收起 来源:BeautifulSoup使用

    2017-08-10

  • urllib.parse.urlencode()的参数可以是dict也可以是两个元素的元组列表
    查看全部
  • import urllib.parse import urllib.request from bs4 import BeautifulSoup import sys import io __author__ = 'yearEamab' sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') headers={ 'Origin':'https://www.thsrc.com.tw', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' } data=urllib.parse.urlencode({ 'StartStation':'2f940836-cedc-41ef-8e28-c2336ac8fe68', 'EndStation':'e6e26e66-7dc1-458f-b2f3-71ce65fdc95f', 'SearchDate':'2017/08/10', 'SearchTime':'15:00', 'SearchWay':'DepartureInMandarin' }) data_by=bytes(data,encoding='utf-8') request=urllib.request.Request('https://www.thsrc.com.tw/tw/TimeTable/SearchResult',data=data_by,headers=headers) response=urllib.request.urlopen(request) html_cont=response.read() soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8') #<section class="result_table"> print(soup.find('section',class_='result_table').find('ul'))
    查看全部
  • urllib的使用步骤:
    查看全部
    0 采集 收起 来源:urllib基本用法

    2017-08-09

  • 用python查询mysql的相关语句
    查看全部
    0 采集 收起 来源:查询MySQL数据

    2017-08-04

  • 获取会话指针
    查看全部
    0 采集 收起 来源:查询MySQL数据

    2017-08-04

举报

0/150
提交
取消
课程须知
熟悉Python语言的语法,掌握Python的正则表达式模块,懂得如何使用Python操作数据库
老师告诉你能学到什么?
使用Python内置urllib模块和第三方BeautifulSoup模块进行数据采集和提取、MySQL数据库的操作、TXT和PDF文档的读取,以及robots协议和相关注意事项

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!