我正在尝试抓取ncbi 网站(https://www.ncbi.nlm.nih.gov/ Protein/29436380)来获取蛋白质信息。我需要访问gene_synonyms 和GeneID 字段。我尝试使用chrome中的selectorGadget插件和ff中的代码检查器找到相关节点。我试过这段代码:我正在尝试抓取ncbi 网站(https://www.ncbi.nlm.nih.gov/ Protein/29436380)来获取蛋白质信息。我需要访问gene_synonyms 和GeneID 字段。我尝试使用chrome中的selectorGadget插件和ff中的代码检查器找到相关节点。我试过这段代码:require("dplyr")require("rvest")require("stringr")GIwebPage <- read_html("https://www.ncbi.nlm.nih.gov/protein/29436380")TestHTML <- GIwebPage %>% html_node("div.grid , div#maincontent.col.nine_col , div.sequence , pre.genebank , .feature") %>% html_text(trim = TRUE)然后我尝试查找相关文本,但根本不存在。str_extract_all(TestHTML, pattern = "(synonym).{30}") [[1]] character(0)str_extract_all(TestHTML, pattern = "(GeneID:).{30}") [[1]] character(0)我似乎正在访问的只是右侧列的一些文本内容。str_extract_all(TestHTML, pattern = "(protein).{30}") [[1]] [1] "protein codes including ambiguities a" [2] "protein sequence for myosin-9 (NP_00" [3] "protein should not be confused with t" [4] "protein, partial [Homo sapiens]gi|294" [5] "protein codes including ambiguities a"我已经尝试了很多节点选择与 html_node() 的组合,以至于我不知道该尝试什么。该内容是否隐藏在我看不到的某些结构中?或者我只是不够熟练,无法实现要选择的节点?
目前暂无任何回答
- 0 回答
- 0 关注
- 112 浏览
添加回答
举报
0/150
提交
取消