html解析cricinfo记分卡目标我希望从Cricinfo网站上获取 20/20板球记分卡数据,理想情况下将其转换为CSV格式,以便在Excel中进行数据分析例如,目前的澳大利亚Big Bash 2011/12记分卡可以从游戏1:http://www.espncricinfo.com/big-bash-league-2011/engine/match/524915.html上一场比赛:http://www.espncricinfo.com/big-bash-league-2011/engine/match/524935.html背景我精通使用VBA(自动化IE或使用XMLHTTP然后使用正则表达式)从网站上抓取数据,即 从HTML TD和Tr中提取值在同一个问题中,发表了一条评论,建议使用html解析 - 我之前没有遇到过 - 所以我看了一些问题,比如除了XHTML自包含标签之外的RegEx匹配开放标签询问虽然我可以编写一个正则表达式来解析下面的板球数据,但我想知道如何通过html解析有效地检索这些结果。请记住,我的偏好是可重复的CSV格式,包含:比赛的日期/名称第1组的名字输出最多可以转移到第1组的11条记录(玩家没有击球的空白记录,即“没有击球”)第2组的名字输出最多可以转移到第2组的11条记录(玩家没有击球的空白记录)Nirvana对我来说是一个可以使用VBA或VBscript部署的解决方案,所以我可以完全自动化我的分析,但我认为我将不得不使用一个单独的工具来进行HTML解析。示例站点链接和要提取的数据
3 回答
斯蒂芬大帝
TA贡献1827条经验 获得超8个赞
RegEx不是解析HTML的完整解决方案,因为它不能保证是常规的。
您应该使用HtmlAgilityPack来查询HTML。这将允许您使用CSS选择器查询HTML,类似于使用jQuery执行此操作的方式。
- 3 回答
- 0 关注
- 926 浏览
相关问题推荐
添加回答
举报
0/150
提交
取消