我是网络抓取新手,我正在尝试使用 R 从以下网站获取搜索结果:https://devtracker.fcdo.gov.uk/sector/1/projects获得结果的第一页很容易,例如使用library(rvest)library(V8)link <- 'https://devtracker.fcdo.gov.uk/sector/1/projects'devtracker = read_html(link) searchresults = devtracker %>% html_nodes(xpath = '//div[@class="search-result"]//a',) %>% html_attr('href')但我无法从后续页面获得结果。最初我以为我会找到下一页的链接,然后按照它,一页一页地获取搜索结果。在浏览器中查看 html 代码,它看起来如下行:pages = devtracker %>% html_nodes(xpath = "//div[@class='six columns']//ul//li",)应该找到其他页面的链接,但这会返回一个空节点集。我知道这与使用 JavaScript 作为页面列表的页面有关,我尝试在以下博客中使用 V8:https: //www.r-bloggers.com/2017/11/scraping-javascript- render-web-content-using-r/但无法弄清楚如何使用它来显示下一页结果。有没有一种简单的方法可以让新手获得该页面的所有搜索结果?
添加回答
举报
0/150
提交
取消