-
Python3 读取 pdf 文件的库 pdfminer3k查看全部
-
urllib 请求 web 服务器 beautiful soul 解析返回的结果 re 进行正则处理查看全部
-
from urllib.request import urlopen from bs4 import BeautifulSoup as bs import re resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8") soup = bs(resp,"html.parser") listUrls = soup.findAll("a", herf=re.compile("^/wiki/")) for url in listUrls: print(url["herf"])查看全部
-
1. print(soup.find(id="link2").string) #获取link2标签的内容; 2. for link in soup.findAll("a"): print(link.string) #查找A标签下面所有的内容,利用For循环实现查看全部
-
爬虫查看全部
-
from urllib.request import urlopen # 引入urlopen 模块 from urllib.request import Request # 引入urlrequest 模块 from urllib import parse # 引入parse 模块 req = Request("http://www.thsrc.com.tw/tw/TimeTable/SearchResult") postDate = parse.urlencode([ ("StartStation", "2f940836-cedc-41ef-8e28-c2336ac8fe68"), ("EndStation", "977abb69-413a-4ccf-a109-0272c24fd490"), ("SearchDate", "2016/08/31"), ("SearchTime", "21:30"), ("SearchWay", "DepartureInMandarin") ]) req.add_header("Origin", "http://www.thsrc.com.tw") req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:48.0) Gecko/20100101 Firefox/48.0)") resp = urlopen(req,data=postDate.encode("utf-8")) print(resp.read().decode("utf-8"))查看全部
-
输入代码的时候需要注意大小写、半角、全角符号都对结果有些影响。查看全部
-
from urllib.request import urlopen # 引入urlopen 模块 from urllib.request import Request # 引入urlrequest 模块 from urllib import parse # 引入parse 模块 req = Request("http://www.thsrc.com.tw/tw/TimeTable/SearchResult") postDate = parse.urlencode([ ("StartStation", "2f940836-cedc-41ef-8e28-c2336ac8fe68"), ("EndStation", "977abb69-413a-4ccf-a109-0272c24fd490"), ("SearchDate", "2016/08/31"), ("SearchTime", "21:30"), ("SearchWay", "DepartureInMandarin") ]) req.add_header("Origin", "http://www.thsrc.com.tw") req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:48.0) Gecko/20100101 Firefox/48.0)") resp = urlopen(req,data=postDate.encode("utf-8")) print(resp.read().decode("utf-8"))查看全部
-
Python1查看全部
-
代码块2查看全部
-
代码块查看全部
-
1. 安装文件的时候一定要把Path 路径添加进来,否则后面会出现较多错误; 2 BeautifulSoup的安装要退出 python 下才能装 ;查看全部
-
乱码问题查看全部
-
#暂时跑不出来。。。回头再看看 # -*- coding:utf-8 -*- import urllib2 import urllib #(1)Request 建立连接 url = 'http://www.thsrc.com.tw/tw/TimeTable/SearchResult' headers = { 'Host':'www.thsrc.com.tw', 'Origin':'http://www.thsrc.com.tw', 'Connection': 'keep-alive', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36' } req = urllib2.Request(url=url, headers=headers) # (2)数据传输 data = {'StartStation': '2f940836-cedc-41ef-8e28-c2336ac8fe68', 'EndStation': 'e6e26e66-7dc1-458f-b2f3-71ce65fdc95f', 'SearchData': '2016/08/31', 'SearchTime': '13:00', 'SearchWay': 'DepartureInMandarin', 'RestTime': '', 'EarlyOrLater': '' } post_data = urllib.urlencode(data) resp = urllib2.urlopen(req, data=post_data) print (resp.read().decode('utf-8'))查看全部
-
嗯查看全部
举报
0/150
提交
取消