scrapy基础 ?之 ?xpath网页结构

发布时间：2023-09-06 02:06责任编辑：傅花花关键词：暂无标签

1 ，什么是xpath

XPath 是一门在 XML 文档中查找信息的语言。XML是一种类似于HTML的传输协议

2，节点

XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。

实例：

 <?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> ?<book> ????<title lang="en">Harry Potter</title> ????<author>J K. Rowling</author> ????<year>2005</year> ????<price>29.99</price> ??</book></bookstore>

　解析： <bookstore> (文档节点) <author>J K. Rowling</author> (元素节点) lang="en" (属性节点) J K. Rowling（基本值） #一般把基本值或者节点叫做项目。

节点关系有父和子之分：

 <book> ???#父 ??<title>Harry Potter</title> ???#是book的子，同级的项目叫做同胞，title，auther，year 和price叫做同胞 ??<author>J K. Rowling</author> ???#同上 ??<year>2005</year> ???#同上 ??<price>29.99</price> ???#同上 </book>

超过一级的父子节点关系叫做先辈和后代，比如父的父，子的子等

3，选取节点

XML实例：

<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book> ??<title lang="eng">Harry Potter</title> ??<price>29.99</price> </book> <book> ??<title lang="eng">Learning XML</title> ??<price>39.95</price> </book> </bookstore>

#选取节点的规则

nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。

节点选取实例：

bookstore选取 bookstore 元素的所有子节点。/bookstore选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！bookstore/book选取属于 bookstore 的子元素的所有 book 元素。//book选取所有 book 子元素，而不管它们在文档中的位置。bookstore//book选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。//@lang选取名为 lang 的所有属性。
/bookstore/book/price/text() ???text()选取所有文本的意思

　注意：如果 XPath 的开头是一个斜线（/）代表这是绝对路径。如果开头是两个斜线（//）表示文件中所有符合模式的元素都会被选出来，即使是处于树中不同的层级也会被选出来。

谓语：

/bookstore/book[1]选取属于 bookstore 子元素的第一个 book 元素。/bookstore/book[last()]选取属于 bookstore 子元素的最后一个 book 元素。/bookstore/book[last()-1]选取属于 bookstore 子元素的倒数第二个 book 元素。/bookstore/book[position()<3]选取最前面的两个属于 bookstore 元素的子元素的 book 元素。//title[@lang]选取所有拥有名为 lang 的属性的 title 元素。//title[@lang=‘eng‘]选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。/bookstore/book[price>35.00]选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。/bookstore/book[price>35.00]/title选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

如何选取未知的节点：

*匹配任何元素节点。@*匹配任何属性节点。node()匹配任何类型的节点。

　 /bookstore/* 选取 bookstore 元素的所有子元素。 //* 选取文档中的所有元素。 //title[@*] 选取所有带有属性的 title 元素。

路径表达式中使用"|"运算符，您可以选取若干个路径:

 ???????//book/title | //book/price 选取book 元素的所有 title 和 price 元素。 ???????//title | //price 选取文档中的所有 title 和 price

4 轴

通过 XPath 轴可以定义相对于当前节点的节点集。

ancestor选取当前节点的所有先辈（父、祖父等）。ancestor-or-self选取当前节点的所有先辈（父、祖父等）以及当前节点本身。attribute选取当前节点的所有属性。child选取当前节点的所有子元素。descendant选取当前节点的所有后代元素（子、孙等）。descendant-or-self选取当前节点的所有后代元素（子、孙等）以及当前节点本身。following选取文档中当前节点的结束标签之后的所有节点。namespace选取当前节点的所有命名空间节点。parent选取当前节点的父节点。preceding选取文档中当前节点的开始标签之前的所有节点。preceding-sibling选取当前节点之前的所有同级节点。self选取当前节点。

6 实例

<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book category="COOKING"> ??<title lang="en">Everyday Italian</title> ??<author>Giada De Laurentiis</author> ??<year>2005</year> ??<price>30.00</price> </book> <book category="CHILDREN"> ??<title lang="en">Harry Potter</title> ??<author>J K. Rowling</author> ??<year>2005</year> ??<price>29.99</price> </book> <book category="WEB"> ??<title lang="en">XQuery Kick Start</title> ??<author>James McGovern</author> ??<author>Per Bothner</author> ??<author>Kurt Cagle</author> ??<author>James Linn</author> ??<author>Vaidyanathan Nagarajan</author> ??<year>2003</year> ??<price>49.99</price> </book> <book category="WEB"> ??<title lang="en">Learning XML</title> ??<author>Erik T. Ray</author> ??<year>2003</year> ??<price>39.95</price> </book> </bookstore>

选取所有的title：/bookstore/book/title

选取第一个book下面的title：/bookstore/book[1]/title

选取price节点中所有的文本：/bookstore/book/price/text()

选取价格高于35的所有price节点的文本：/bookstore/book[price>35]/price

选取价格节点高于35的所有title节点：/bookstore/book[price>35]/title

scrapy基础 ?之 ?xpath网页结构

原文地址：https://www.cnblogs.com/0-lingdu/p/9383624.html

scrapy基础 ?之 ?xpath网页结构

1 ，什么是xpath

2，节点

3，选取节点

4 轴

6 实例

知识推荐