我正在制作一个简单的抓取算法来提取产品的 GTIN。我能够抓取 html 并精确定位 GTIN 编号,但我想知道将其抓取为整数的最佳方法是什么。此外,我如何抓取像content=这样的内容并获取其指定的编号?import requestsfrom bs4 import BeautifulSouptesting_link = 'https://www.walmart.com/ip/Better-Homes-Gardens-Leighton-Nightstand-Rustic-Cherry-Finish/54445647'URL = testing_linkpage = requests.get(URL)soup = BeautifulSoup(page.content, 'html.parser')results = soup.find(itemprop='gtin13')print(results.prettify())当我运行这个时,我得到<span content="0042666029322" itemprop="gtin13"></span>我希望能够获得0042666029322作为整数供以后使用,有什么建议吗?
1 回答
冉冉说
TA贡献1877条经验 获得超1个赞
你不能这样做,前导零意味着 Python 中的八进制。您可以保存为字符串,然后将其转换为 int。
>>> content = results.get('content')
>>> print(content)
0042666029322
>>> print(int(content))
42666029322
添加回答
举报
0/150
提交
取消