提取 HTML 并在 Python 中搜索

我仍然是 python 的初学者，我正在试验。我正在寻找一种方法来请求一个 url 并获取网页的数据，这样该页面就不需要打开了。获得数据后，我需要在数据中搜索标签，例如，如果它在请求的主页某处有“hello”。这是一个例子：import urllib.requestfp = urllib.request.urlopen("http://www.python.org")mybytes = fp.read()mystr = mybytes.decode("utf8")fp.close()x = mystr.find('testing word tag');print(x)请耐心等待，因为我还是个菜鸟，找不到我要找的例子。^ 在这里找到了这段代码，但它似乎无法找到一个字符串。任何人都知道最好的方法吗？感谢你们：）

查看完整描述

2 回答

慕尼黑8549860

TA贡献1818条经验获得超11个赞

以下是这类工作最常用的库：

$ pip install requests bs4

在您最喜欢的 IDE 中：

import requests

from bs4 import BeautifulSoup

r = requests.get("http://www.python.org")

soup = BeautifulSoup(r.content, "html.parser")

sometag = soup.find("sometag")

print(sometag)

反对回复 2023-06-20

aluckdog

TA贡献1847条经验获得超7个赞

尝试这个。

import requests

url = "https://stackoverflow.com/questions/63577634/extract-html-and-search-in-python"

res = requests.get(url)

print(res.text)

反对回复 2023-06-20

精慕HU

TA贡献1845条经验获得超8个赞

另一种方法。

from simplified_scrapy import SimplifiedDoc,req

html = req.get('https://www.python.org')

doc = SimplifiedDoc(html)

title = doc.getElement('title').text

print (title)

title = doc.getElementByText('Welcome to', tag='title').text

print (title)

结果：

Welcome to Python.org

反对回复 2023-06-20

热搜

最近搜索清空

提取 HTML 并在 Python 中搜索

提取 HTML 并在 Python 中搜索

2 回答

添加回答