为了账号安全,请及时绑定邮箱和手机立即绑定

提取电影脚本时,BeautifulSoup 吓坏了

提取电影脚本时,BeautifulSoup 吓坏了

紫衣仙女 2021-11-02 15:13:08
我正在尝试从该网站获取电影剧本作为文本。直到某一点,文本变成这样:5   .      /   b   >                      T   H   E       W   A   L   L   S       C   O   M   E       A   L   I   V   E   !       A       s   e   e   m   i   n   g   l   y       i   n   f   i   n   i   t   e       s   w   a   r   m       o   f       F   I   R   E                      D   E   M   O   N   S       r   a   l   l   y       t   o       S   u   r   t   u   r   '   s       a   i   d   .   这是我的代码import requestsfrom bs4 import BeautifulSoupwebsite_url = requests.get("https://www.imsdb.com/scripts/Thor-Ragnarok.html").textsoup = BeautifulSoup(website_url, "lxml")text = soup.pre打印出来时text,它会显示预期的输出,直到第 5 节。然后我看到上面的文字很烦人...关于为什么会发生这种情况以及如何解决它的任何想法?
查看完整描述

2 回答

?
慕斯709654

TA贡献1840条经验 获得超5个赞

奇怪...我在我的机器上尝试了你的原始代码,但我无法重现你描述的间距问题。我有 lxml-4.3.0、bs4 版本 4.7.1 和 python 3.7.1。你有哪些版本?


查看完整回答
反对 回复 2021-11-02
  • 2 回答
  • 0 关注
  • 133 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号