为了账号安全,请及时绑定邮箱和手机立即绑定

无法使用rvest和selectorGadget访问html页面中的特定内容

无法使用rvest和selectorGadget访问html页面中的特定内容

繁华开满天机 2024-01-03 16:32:52
我正在尝试抓取ncbi 网站(https://www.ncbi.nlm.nih.gov/ Protein/29436380)来获取蛋白质信息。我需要访问gene_synonyms 和GeneID 字段。我尝试使用chrome中的selectorGadget插件和ff中的代码检查器找到相关节点。我试过这段代码:我正在尝试抓取ncbi 网站(https://www.ncbi.nlm.nih.gov/ Protein/29436380)来获取蛋白质信息。我需要访问gene_synonyms 和GeneID 字段。我尝试使用chrome中的selectorGadget插件和ff中的代码检查器找到相关节点。我试过这段代码:require("dplyr")require("rvest")require("stringr")GIwebPage <- read_html("https://www.ncbi.nlm.nih.gov/protein/29436380")TestHTML <- GIwebPage %>% html_node("div.grid , div#maincontent.col.nine_col , div.sequence , pre.genebank , .feature") %>% html_text(trim = TRUE)然后我尝试查找相关文本,但根本不存在。str_extract_all(TestHTML, pattern = "(synonym).{30}") [[1]] character(0)str_extract_all(TestHTML, pattern = "(GeneID:).{30}") [[1]] character(0)我似乎正在访问的只是右侧列的一些文本内容。str_extract_all(TestHTML, pattern = "(protein).{30}") [[1]] [1] "protein codes including ambiguities a" [2] "protein sequence for myosin-9  (NP_00" [3] "protein should not be confused with t" [4] "protein, partial [Homo sapiens]gi|294" [5] "protein codes including ambiguities a"我已经尝试了很多节点选择与 html_node() 的组合,以至于我不知道该尝试什么。该内容是否隐藏在我看不到的某些结构中?或者我只是不够熟练,无法实现要选择的节点?
查看完整描述

目前暂无任何回答

  • 0 回答
  • 0 关注
  • 112 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信