Xpath如何提取HTML數(shù)據(jù)-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商，新人活動(dòng)買多久送多久，劃算不套路！

成都創(chuàng)新互聯(lián)成立于2013年，是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司，擁有項(xiàng)目成都做網(wǎng)站、成都網(wǎng)站建設(shè)網(wǎng)站策劃，項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命，1280元賓川做網(wǎng)站,已為上家服務(wù),為賓川各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108

今天就跟大家聊聊有關(guān)Xpath如何提取HTML數(shù)據(jù)，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

1.簡(jiǎn)介

XPath是一門在 XML 文檔中查找信息的語言。XPath 用于在 XML 文檔中通過元素和屬性進(jìn)行導(dǎo)航。
相比于BeautifulSoup，Xpath在提取數(shù)據(jù)時(shí)會(huì)更加的方便。

2. 安裝

在Python中很多庫都有提供Xpath的功能，但是最基本的還是lxml這個(gè)庫，效率最高。在之前BeautifulSoup章節(jié)中我們也介紹到了lxml是如何安裝的。

pip install lxml

3. 語法

XPath 使用路徑表達(dá)式在 XML 文檔中選取節(jié)點(diǎn)。節(jié)點(diǎn)是通過沿著路徑或者 step 來選取的。

我們將用以下的HTML文檔來進(jìn)行演示：

html_doc = '''
    

        
            Everyday Italian
            Giada De Laurentiis
            2005
            30.00
        

        
            Harry Potter
            J K. Rowling
            2005
            29.99
        

        
            XQuery Kick Start
            James McGovern
            Per Bothner
            Kurt Cagle
            James Linn
            Vaidyanathan Nagarajan
            2003
            49.99
        

        
            Learning XML
            Erik T. Ray
            2003
            39.95
        

    '''

導(dǎo)入語句，并生成HTML的DOM樹：

from lxml import etree

page = etree.HTML(html_doc)

3.1. 路徑查找

Xpath如何提取HTML數(shù)據(jù)

查找當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)

In [1]: page.xpath('head')
Out[1]: []

從根節(jié)點(diǎn)進(jìn)行查找

In [2]: page.xpath('/html')
Out[2]: []

從整個(gè)文檔中所有節(jié)點(diǎn)查找

In [3]: page.xpath('//book')
Out[3]:
[, , , ]

選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)

In [4]: page.xpath('//book')[0].xpath('..')
Out[4]: []

選取屬性

In [5]: page.xpath('//book')[0].xpath('@category')
Out[5]: ['COOKING']

3.2. 節(jié)點(diǎn)查找

Xpath如何提取HTML數(shù)據(jù)

nodename[1]

選取第一個(gè)元素。

nodename[last()]

選取最后一個(gè)元素。

nodename[last()-1]

選取倒數(shù)第二個(gè)元素。

nodename[position()<3]

選取前兩個(gè)子元素。

nodename[@lang]

選取擁有名為 lang 的屬性的元素。

nodename[@lang='eng']

選取擁有l(wèi)ang屬性，且值為 eng 的元素。

選取第二個(gè)book元素

In [1]: page.xpath('//book[2]/@category')
Out[1]: ['CHILDREN']

選取倒數(shù)第三個(gè)book元素

In [2]: page.xpath('//book[last()-2]/@category')
Out[2]: ['CHILDREN']

選取第二個(gè)元素開始的所有元素

In [3]: page.xpath('//book[position() > 1]/@category')
Out[3]: ['CHILDREN', 'WEB', 'WEB']

選取category屬性為WEB的的元素

In [4]: page.xpath('//book[@category="WEB"]/@category')
Out[4]: ['WEB', 'WEB']

3.3. 未知節(jié)點(diǎn)

Xpath如何提取HTML數(shù)據(jù)

匹配第一個(gè)book元素下的所有元素

In [1]: page.xpath('//book[1]/*')
Out[1]:
[,
 ,
 ,
 ]

3.4. 獲取節(jié)點(diǎn)中的文本

用text()獲取某個(gè)節(jié)點(diǎn)下的文本

In [1]: page.xpath('//book[1]/author/text()')
Out[1]: ['Giada De Laurentiis']

如果這個(gè)節(jié)點(diǎn)下有多個(gè)文本，則只能取到一段。

用string()獲取某個(gè)節(jié)點(diǎn)下所有的文本

In [2]: page.xpath('string(//book[1])')
Out[2]: '\n            Everyday Italian\n            Giada De Laurentiis\n

3.5. 選取多個(gè)路徑

通過在路徑表達(dá)式中使用“|”運(yùn)算符，您可以選取若干個(gè)路徑。

In [1]: page.xpath('//book[1]/title/text() | //book[1]/author/text()')
Out[1]: ['Everyday Italian', 'Giada De Laurentiis']

看完上述內(nèi)容，你們對(duì)Xpath如何提取HTML數(shù)據(jù)有進(jìn)一步的了解嗎？如果還想了解更多知識(shí)或者相關(guān)內(nèi)容，請(qǐng)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道，感謝大家的支持。

分享題目：Xpath如何提取HTML數(shù)據(jù)-創(chuàng)新互聯(lián)
文章URL：http://m.jiaotiyi.com/article/hccid.html

網(wǎng)站建設(shè)知識(shí)

Xpath如何提取HTML數(shù)據(jù)-創(chuàng)新互聯(lián)

其他資訊