2 回答
TA贡献1775条经验 获得超8个赞
很好,你进步了!
我推荐你pip install requests并使用它。您会发现它是一个比 urllib 方便得多的 API。(此外,它只是soup该变量的常用名称。)
如何将所有文本元素放入列表?
就这么简单:
print(list(page_soup.find_all('p')))
这就解释了为什么这么多人非常喜欢 BeautifulSoup。
这将显示页面的摘录:
paragraphs = page_soup.find_all('p')
for p in paragraphs:
print(str(p)[:40])
<p class="lead">There are no longer any
<p><strong>Polar Bear</strong> (Ursus Ma
<p><strong>Zoo collection includes:</str
<p><strong>Found in the wild:</strong> A
<p><strong>See Them at the Central Park
<p><strong>Description:</strong> The mal
<p><strong>Zoo Bear Habitat:</strong> Th
<p><strong>What do they eat:</strong> T
<p><strong>Life span:</strong> 25 to 30
<p><strong>Threats:</strong> Global warm
<p><strong>Fun Facts:</strong> A newborn
<p>Copyright © 2004 - 2018 Greensward Gr
这是要注意重要的p是不是一个字符串。它是一个可以搜索的对象,就像它来自的汤一样。您可能想在其中找到<strong>跨度。
添加回答
举报