使用java 的一个开源工具 Jtidy 可以清理不规则的html文件并生成 对应的xml文件,但是由于html的容错性较强,百分之80的网页都存在错误,无法成功转换,如果我要批量进行转换用来抽取其中的信息,那么我该怎么处理呢..... 查看完整描述