Scrapy提取數(shù)據(jù)有自己的一套機(jī)制,被稱作選擇器(selectors),通過特定的Xpath或者CSS表達(dá)式來選擇HTML文件的某個部分
Xpath是專門在XML文件中選擇節(jié)點(diǎn)的語言,也可以用在HTML上。
CSS是一門將HTML文檔樣式化語言,選擇器由它定義,并與特定的HTML元素的樣式相關(guān)聯(lián)。
XPath選擇器
常用的路徑表達(dá)式,這里列舉了一些常用的,XPath的功能非常強(qiáng)大,內(nèi)含超過100個的內(nèi)建函數(shù)。
下面為常用的方法
nodeName 選取此節(jié)點(diǎn)的所有節(jié)點(diǎn)/ 從根節(jié)點(diǎn)選取// 從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn),不考慮它們的位置 . 選擇當(dāng)前節(jié)點(diǎn) .. 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn) @ 選取屬性* 匹配任何元素節(jié)點(diǎn) @* 匹配任何屬性節(jié)點(diǎn) Node() 匹配任何類型的節(jié)點(diǎn)
CSS選擇器
CSS層疊樣式表,語法由兩個主要部分組成:選擇器,一條或多條聲明
Selector {declaration1;declaration2;……}
下面為常用的使用方法
延伸閱讀
學(xué)習(xí)是年輕人改變自己的最好方式