已解决430363个问题，去搜搜看，总会有你想问的

如何使用Beautiful Soup提取HTML标记内的特定文本？

首页猿问如何使用Beautiful...

如何使用Beautiful Soup提取HTML标记内的特定文本？

Python

牛魔王的故事 2021-03-04 14:05:40

我有一个这样的HTML标记：<ul class="clearfix"> "<li><span class="bold-title">Starts:</span> October 2013</li>"</ul>我想提取“ 2013年10月”。我的代码是：start_date = articl.find('ul', class_='clearfix').find('li').text.strip()...摘录为“开始时间：2013年10月”。如何只取日期呢？

查看完整描述

3 回答

catspeake

TA贡献1111条经验获得超0个赞

使用正则表达式：

import re

ss = '''

<li><span class="bold-title">Starts:</span> October 2013</li>"

</ul>

blah blah

<li><<a href="/derives/certificats/"> November 2014 </li>"

</ul>

'''

regx = re.compile('<ul +class="clearfix">.+?'

'<li>.*? *([^<>]+?) *</li>',

re.DOTALL)

print regx.findall(ss)

# prints ['October 2013', 'November 2014']

反对回复 2021-03-26

收到一只叮咚

TA贡献1821条经验获得超5个赞

hold = li.text

for eachTag in li.findAll():

hold = hold.replace(eachTag.text,'')

反对回复 2021-03-26

慕尼黑5688855

TA贡献1848条经验获得超2个赞

使用.contents，它返回一个列表：

>>> from bs4 import BeautifulSoup as BS

>>> html = (stuff above)

>>> soup = BS(html)

>>> print soup.find('li').contents[1].strip()

October 2013

反对回复 2021-03-26

3 回答
0 关注
299 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

如何使用Beautiful Soup提取HTML标记内的特定文本？

如何使用Beautiful Soup提取HTML标记内的特定文本？

3 回答

添加回答