`
douh
  • 浏览: 16548 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

常用XPATH表达式

    博客分类:
  • XML
阅读更多
文章转自:http://www.cnblogs.com/chinaicm/archive/2008/07/04/1235249.html

常用的XPath表达式
一些常用的XPath表达式:

/catalog/cd/price   

如果XPath的开头是一个斜线(/)代表这是绝对路径。如果开头是两个斜线(//)表示文件中所有符合模式的元素都会被选出来,即使是处于树中不同的层级也会被选出来。以下的语法会选出文件中所有叫做cd的元素(在树中的任何层级都会被选出来):


//cd

选择未知的元素
使用星号(Wildcards,*)可以选择未知的元素。下面这个语法会选出/catalog/cd 的所有子元素:


/catalog/cd/*

以下的语法会选出所有catalog的子元素中,包含有price作为子元素的元素。


/catalog/*/price

以下的语法会选出有两层父节点,叫做price的所有元素。


/*/*/price

以下的语法会选择出文件中的所有元素。


//*

要注意的是,想要存取不分层级的元素,XPath语法必须以两个斜线开头(//),想要存取未知元素才用星号(*),星号只能代表未知名称的元素,不能代表未知层级的元素。

选择分支
使用中括号可以选择分支。以下的语法从catalog的子元素中取出第一个叫做cd的元素。XPath的定义中没有第0元素这种东西。


/catalog/cd[1]

以下语法选择catalog中的最后一个cd元素:(XPathj并没有定义 first() 这种函式喔,用上例的 [1]就可以取出第一个元素。


/catalog/cd[last()]

以下语法选出含有price子元素的所有/catalog/cd元素。


/catalog/cd[price]

以下语法选出price元素的值等于10.90的所有/catalog/cd元素


/catalog/cd[price=10.90]

以下语法选出price元素的值等于10.90的所有/catalog/cd元素 的price元素


/catalog/cd[price=10.90]/price

选择一个以上的路径
使用Or操作数( |)就可以选择一个以上的路径。例如:


/catalog/cd/title | catalog/cd/artist

选择所有title以及artist元素


//title | //artist

选择所有title以及artist以及price元素


//title | //artist | //price

选择属性
在XPath中,除了选择元素以外,也可以选择属性。属性都是以@开头。例如选择文件中所有叫做country的属性:


//@country
       
选择所有含有country这个属性的cd元素:


//cd[@country]
       
以下语法选择出含有属性的所有cd元素


//cd[@*]
       
以下语法选择出country属性值为UK的cd元素


//cd[@country='UK']
分享到:
评论

相关推荐

    XmlHelper XPath路径表达式选取XML节点

    XPath路径表达式选取XML节点.doc 为XML中常用属性说明 XmlHelper.CS 一个类文件 包括对XML 文件的常规操作 xml字符串转换为dataTable DataTable 转换为xml 找出所有与pPath匹配路径的节点创建dataTable,并设置...

    XPath基础.docx

    在scrapy中,对数据进行筛选和提取,采用较多的是XPath表达式。本文介绍了常用的提取方法。XPath是一种XML路径语言,通过该语言,可以在XML文档中迅速查找到相应的信息。 在XPath表达式中,使用“/”可以选择某个...

    CSS、DHTML、XMLDOM、T-SQL、XPath、正则表达式等.chm文件

    常用的CSS、DHTML、XMLDOM、T-SQL、XPath、正则表达式等.chm文件----据大家的要求把分降低了

    EL表达式的详细使用

    表达式语言的灵感来自于 ECMAScript 和 XPath 表达式语言,它提供了在 JSP 中简化表达式的方法。它是一种简单的语言,基于可用的命名空间(PageContext 属性)、嵌套属性和对集合、操作符(算术型、关系型和逻辑型...

    Python3 xml.etree.ElementTree支持的XPath语法详解

    xml.etree.ElementTree可以通过支持的有限的XPath表达式来定位元素。 语法 ElementTree支持的语法如下: 语法 说明 tag 查找所有具有指定名称tag的子元素。例如:country表示所有名为country的元素,country/...

    【爬虫学得好,基础少不了】:XPath语法和lxml模块(详解)

    二、xpath helper插件三、xpath helper安装使用方法四、XPath语法4.1 节点语法4.2 节点实例4.3 谓语(Predicates)4.4 选取未知节点4.5 选取若干路径五、XPath 轴5.1 轴常用语法5.2 位置路径表达式5.3 步(step)的...

    Java开源的xpath解析器Jsoupxpath.zip

    支持标准xpath语法(支持谓语嵌套),支持全部常用函数,支持全部常用轴,去掉了一些标准里面华而不实的函数和轴,下面会具体介绍。语法可以参考http://www.w3school.com.cn/xpath/index.asp 关于使用Xpath的一些...

    使用Python的各种爬虫真实案例源码资源

    这是一个基于Python的爬虫案例,使用了Scrapy框架和XPath表达式。它可以爬取指定网站的新闻标题、发布时间和内容,并将结果保存到数据库中。通过设置爬虫的起始链接和规则,自动遍历网页,提取所需信息。同时,使用...

    关于Dom4j编程的相关jar包

    里面有关于dom4j的jar包和XPath表达式所需的相关包.解压缩后共3个jar包.

    Task 02 Xpath(2.2)

    2.2.2 Xpath常用的路径表达式: XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 在XPath中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根...

    每天30分钟 一起来学习爬虫——day10(解析数据 之 xpath,实例:好段子爬取)

    常用的路径表达式:实例:安装xpath插件到浏览器。看代码中的使用:爬取好段子 xpath 解析网页 什么是xpath ? xml: 可扩展标记语言,用来传输和存储数据。他的标签没有预定义,要自己定义标签。 与html的区别: ...

    Xpah表达式超方便使用指南

    相对定位路径:// (最常用) 绝对路径的使用定位方式会导致一段div等节点中修改或增加模块导致这个定位表达式无法使用。维护成本大,需要经常修改表达式,元素表达式定位的范围大路径太死 相对定位方式页面层级出现...

    基于jsp+servlet+bean实现的mvc源码

    一、Servlet+JSP+JavaBean开发模式(MVC)介绍  Servlet+JSP+JavaBean模式(MVC)适合开发复杂的web应用,在这种模式下,servlet负责处理用户请求,jsp负责...2 jaxen-1.1-beta-6.jar 用于解析XPath表达式 3 commons-bean

    大数据爬虫技术第5章 数据解析.ppt

    还可以调用xpath()方法,使用元素作为上下文节点来评估XPath表达式。 示例 # 从字符串中解析XML,返回根节点 root = etree.XML("<root><a x='123'>aText<b/><c/><b/></a></root>") # 从根节点查找,返回匹配到的...

    Android 本地网络小说爬虫,基于jsoup及xpath.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    爬虫解析_xpath基本应用(解析本地文件和服务器响应).zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    定制爬虫工具(sqlserver版),通过正则表达式自定义抓取模版,通过自定义数据模型入库.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    各种爬虫:爱企查爬虫,网上114企业信息爬虫,抖音视频爬虫,wipo爬虫, 专利信息爬虫(patentscope).zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

Global site tag (gtag.js) - Google Analytics