Java爬虫(二)--页面解析神器Xpath的介绍及使用

Java爬虫(二)--页面解析神器Xpath的介绍及使用

2023年6月29日发(作者:)

Java爬⾍(⼆)--页⾯解析神器Xpath的介绍及使⽤XPath 是⼀门在 XML ⽂档中查找信息的语⾔,由于我们使⽤的⼀些爬⾍解析⼯具基本都是可以把html页⾯转成xml格式的对象。加上webmagic本⾝⽀持使⽤Xpath抽取元素,所以使⽤Xpath进⾏解析⼗分的⽅便。1、选取节点表达式nodename///.…@描述选取此节点的所有⼦节点。从根节点选取(取⼦节点)。从匹配选择的当前节点选择⽂档中的节点,⽽不考虑它们的位置(取⼦孙节点)。选取当前节点。选取当前节点的⽗节点。选取属性。2、谓语谓语就是⽤来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在⽅括号中。路径表达式/div/a[1]/div/a[last()]/div/a[last()-1]//a[@href]//div[@class=‘prodclass’]结果选取属于 div⼦元素的第⼀个 a 元素。选取属于 div⼦元素的最后⼀个 a 元素。选取属于 div⼦元素的倒数第⼆个 a 元素。选取所有拥有名为 href的属性的 a 元素。选取所有 div元素,且这些元素拥有值为 prodclass 的 class 属性。3、通配符通配符*@*/div/*node()//*node()//div描述匹配任何元素节点。匹配任何元素节点。选取 div 元素的所有⼦元素。匹配任何类型的节点。匹配任何类型的节点。匹配任何类型的节点。//span4、Xpath 轴定位Xpath轴可定义相对于当前节点的节点集。当某个元素的各个属性及其组合都不⾜以定位时,那么可以利⽤其兄弟节点或者⽗节点等各种可以定位的元素进⾏定位。轴名称ancestorancestor-or-selfattribute结果选取当前节点的所有先辈(⽗、祖⽗等)。选取当前节点的所有先辈(⽗、祖⽗等)以及当前节点本⾝。选取当前节点的所有属性。轴名称childdescendantdescendant-or-selffollowingfollowing-siblingnamespaceparentprecedingpreceding-siblingself结果选取当前节点的所有⼦元素。选取当前节点的所有后代元素(⼦、孙等)。选取当前节点的所有后代元素(⼦、孙等)以及当前节点本⾝。选取⽂档中当前节点的结束标签之后的所有节点。选取当前节点之后的所有兄弟节点。选取当前节点的所有命名空间节点。选取当前节点的⽗节点。选取⽂档中当前节点的开始标签之前的所有节点。选取当前节点之前的所有同级节点。选取当前节点。喜欢的朋友欢迎⼀键三连。我们⼀起学习,进步~~

发布者:admin,转转请注明出处:http://www.yc00.com/xiaochengxu/1687981697a63416.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信