首页手记网页结构的简介和Xpath语法的入门教程

网页结构的简介和Xpath语法的入门教程

标签：

Python 机器学习爬虫

相信很多小伙伴已经听说过Xpath，之前小编也写过一篇关于Xpath的文章，感兴趣的小伙伴可以戳这篇文章[如何利用Xpath抓取京东网商品信息]以及[Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结]。今天小编继续给大家介绍一些Xpath知识点，希望对大家的学习有帮助。

1、Xpath让我们可以使用一种类似于Windows下的文件路径的方式，让我们可以定位到HTML或者XML结构中的具体元素。Xpath本身包含标一些准函数库，可以让我们的Xpath语法更加强大。

2、在HTML结构中，有一定的层级关系，主要的关系包括：父节点、子节点、同胞节点（兄弟节点）、先辈节点、后代节点。

一般的，像类似于这种结构，称之为一个节点。如上图，根据层次关系，我们可以知道节点是

的父节点，相应的，节点是节点的子节点。同胞节点又叫兄弟节点，一般的处于同级层次的节点叫同胞节点，如上图中的节点和第一个

节点、177~181行的标签都是属于同胞节点。先辈节点又叫祖先节点，一般的，一个节点的上层以上的节点均称为先辈节点，所以父节点也是属于先辈节点的一种。基于此，我们又可以称节点是的先辈节点。相对应的，一个节点的下层以下的节点均称为后代节点，所以子节点也是属于后代节点的一种。基于此，我们又可以称节点是节点的后代节点。

3、理解这些节点之间的关系之后，可以方便我们更好的理解Xpath语法，下表是部分常用的Xpath语法。

这里特别强调“/”和“//”的区别，“/”一般代表的某个元素的子节点，而不是全部的后代节点；而“//”一般代表的某个元素的后代节点，范围比“/”代表的要更加广泛一些。@符号后边时常跟着class，代表选取名为class属性的节点，比较常见。

4、下面针对具体的网页源码，让大家了解一下网页结构。

如上图中的红色框框中，class为属性，而等于号后边的“grid-5”即为属性值，有的时候节点内不只是一个属性，如上图中的196行中，就有两个属性。

5、为了更加方便的定位到div或者其他节点下的标签，我们需要继续进一步的进行定位锁定，下表是部分常用的Xpath语法。

掌握了Xpath语法知识之后，我们就可以通过Xpath语法来进行编写Xpath表达式，以提取网页上的目标数据。

千里之行，始于足下。如果想学好Xpath，更是需要勤加使用。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕先生0340613

手记
篇

粉丝

23

获赞与收藏

124

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27396 926

Python 算法入门教程

15个小节 30079 1160

Python 进阶应用教程

38个小节 72357 1134

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

网页结构的简介和Xpath语法的入门教程

阅读免费教程