我创建了一个基本的文本浏览器/抓取器,可以满足我的需要。然而,当收到来自站点的文本时,会有大量额外的空行。有没有一种方法可以删除多余的空白行,但在段落之间至少保留一个空白行?这是我的代码......import urllib.requestfrom urllib.request import urlopenfrom bs4 import BeautifulSoupurl = input('Enter a URL starting with https or http: ')host = urlwebUrl = urllib.request.urlopen(host)print('result code: ' + str(webUrl.getcode()))data = webUrl.read()soup = BeautifulSoup(data, features="html.parser")for script in soup(["script", "style"]): script.extract()text = soup.get_text()print (text)input('Scroll Up or Press ENTER to Exit')
1 回答
翻过高山走不出你
TA贡献1875条经验 获得超3个赞
用于re.sub
用单个换行符替换多个换行符,换行符之间和之前有可选的空格:
import re text = re.sub(r"\s*\n", "\n", text)
添加回答
举报
0/150
提交
取消