我正在尝试从该网站获取电影剧本作为文本。直到某一点,文本变成这样:5 . / b > T H E W A L L S C O M E A L I V E ! A s e e m i n g l y i n f i n i t e s w a r m o f F I R E D E M O N S r a l l y t o S u r t u r ' s a i d . 这是我的代码import requestsfrom bs4 import BeautifulSoupwebsite_url = requests.get("https://www.imsdb.com/scripts/Thor-Ragnarok.html").textsoup = BeautifulSoup(website_url, "lxml")text = soup.pre打印出来时text,它会显示预期的输出,直到第 5 节。然后我看到上面的文字很烦人...关于为什么会发生这种情况以及如何解决它的任何想法?
2 回答

慕斯709654
TA贡献1840条经验 获得超5个赞
奇怪...我在我的机器上尝试了你的原始代码,但我无法重现你描述的间距问题。我有 lxml-4.3.0、bs4 版本 4.7.1 和 python 3.7.1。你有哪些版本?
添加回答
举报
0/150
提交
取消