我试图获取此网站列表中的所有 href:https://nihongonosei.net/?page_id =10246 。该网站非常简单干净。查看源代码后,我发现没有任何动态。但是,如果我这样做import requestsurl = 'https://nihongonosensei.net/?page_id=10246'r = requests.get(url)r.textr.text仅包含约20000个字符信息。超过一半的 html 丢失了。我尝试从“查看页面源代码”复制整个 HTML 并直接加载到 Beautifulsoup:from bs4 import BeautifulSouphtml = '' # too long to copy. Here is the link: view-source:https://nihongonosensei.net/?page_id=10246 soup = BeautifulSoup(html, 'html.parser')仍然只保留了大约 20000 个字符,并且 html 的上半部分丢失了。这是我的问题:requests和是否有字符限制BeautifulSoup?如果是这样,我该如何取消限制?如果没有,为什么我无法获取完整的 html?多谢!
目前暂无任何回答
- 0 回答
- 0 关注
- 131 浏览
添加回答
举报
0/150
提交
取消