2 回答
TA贡献1906条经验 获得超10个赞
看你爬什么了,我推荐的最简单的就是用requests来获取响应网页,再用re或者bs4中的beautifulSoup来解析网页,其实网页爬取总的来说就是先获取网页,然后将网页的html代码进行解析,找到我们需要获取的数据,之后就再储存在文件里就可以了
import requests
from bs4 import BeautifulSoup
link = "https://.........."#需要用的网址
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'}#这是在构造请求头,在F12中的network可以找到
r = requests.get(link, headers = headers)
print(r.status_code, r.text)#这里得到的是网页的所有源代码
html = r.text
soup = BeautifulSoup(html, 'lxml')#用bs4进行解析网页
title = soup.find('div', class_=",,,,,,,,")#这里就是你需要用F12的element来定位你想要获取的信息
with open('practise.txt','w') as file:#得到的结果写入文件
file.write(title.text)
file.close()
添加回答
举报