为了账号安全,请及时绑定邮箱和手机立即绑定

在C#中解析html的最佳方法是什么?

在C#中解析html的最佳方法是什么?

RISEBY 2019-06-25 11:03:33
在C#中解析html的最佳方法是什么?我正在寻找一个库/方法来解析一个html文件,它比一般的XML解析库具有更多的html特定特性。
查看完整描述

3 回答

?
梦里花落0921

TA贡献1772条经验 获得超6个赞

您可以使用TidyNetTidy将HTML转换为XHTML,然后使用XML解析器。

另一种选择是使用内置引擎mshtml:

using mshtml;...object[] oPageText = { html };HTMLDocument doc = new HTMLDocumentClass();IHTMLDocument2 doc2 = (IHTMLDocument2)doc;
doc2.write(oPageText);

这允许您使用类似javascript的函数,如getElementById()


查看完整回答
反对 回复 2019-06-25
?
慕容708150

TA贡献1831条经验 获得超4个赞

HTML敏捷包

这是一个敏捷的HTML解析器,它构建了一个读/写DOM,并支持普通的XPath或XSLT(您实际上不需要理解XPath或XSLT就可以使用它,不要担心.)。它是一个.NET代码库,允许您解析“走出Web”HTML文件。解析器对“真实世界”格式错误的HTML非常宽容。对象模型与System.Xml非常相似,但适用于HTML文档(或流)。


查看完整回答
反对 回复 2019-06-25
  • 3 回答
  • 0 关注
  • 2141 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信