为了账号安全,请及时绑定邮箱和手机立即绑定

lxml使用css时出现的问题求解决?

lxml使用css时出现的问题求解决?

偶然的你 2019-05-16 16:11:13
lxml使用css时出现的问题求解决
查看完整描述

2 回答

?
隔江千里

TA贡献1906条经验 获得超10个赞

看你爬什么了,我推荐的最简单的就是用requests来获取响应网页,再用re或者bs4中的beautifulSoup来解析网页,其实网页爬取总的来说就是先获取网页,然后将网页的html代码进行解析,找到我们需要获取的数据,之后就再储存在文件里就可以了
import requests
from bs4 import BeautifulSoup
link = "https://.........."#需要用的网址
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'}#这是在构造请求头,在F12中的network可以找到
r = requests.get(link, headers = headers)
print(r.status_code, r.text)#这里得到的是网页的所有源代码
html = r.text
soup = BeautifulSoup(html, 'lxml')#用bs4进行解析网页
title = soup.find('div', class_=",,,,,,,,")#这里就是你需要用F12的element来定位你想要获取的信息
with open('practise.txt','w') as file:#得到的结果写入文件
file.write(title.text)

file.close()



查看完整回答
反对 回复 2019-05-25
  • 2 回答
  • 0 关注
  • 513 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信