在我們平時看NBA的時候,可能我們只關(guān)心球員是否能把球打進(jìn),而不太關(guān)心這個球的顏色,品牌,只要有3D效果,看到球員扣籃的動作就可以了,比如下圖:

如果我們直接對籃球照片進(jìn)行幾百萬像素的處理,會有幾千維甚至幾萬維的數(shù)據(jù)要計算,計算量很大。而往往我們只需要大概勾勒出籃球的大概形狀就可以描述問題,所以必須對此類數(shù)據(jù)降維,這樣會使處理數(shù)據(jù)更加輕松。這個在人臉識別中必須要降維,因為我們在做特征提取的時候幾萬維的數(shù)據(jù)很難全部有效計算,PCA技術(shù)作為四大降維技術(shù)之一對于此類問題有很好的處理效果。

一 前瞻知識

向量的內(nèi)積,矩陣的意義,矩陣特征值,正交基,方差,協(xié)方差。

 

二 降維的概念

降維通俗地說,就是把高維數(shù)據(jù)降成低維數(shù)據(jù)。因為對于機(jī)器學(xué)習(xí)算法,處理上萬級別維數(shù)的數(shù)據(jù)是家常便飯的事情,但是處理是能處理,這會帶來巨大的時間開銷。影響算法的時間復(fù)雜度,降維就是在減少維數(shù)的前提下,盡量保證數(shù)據(jù)的完整性。這里需要說明的是,降維不是單純的刪除掉某些特征值,而是把高維數(shù)據(jù)通過一定的矩陣變換映射到低維空間,現(xiàn)在我們舉一個例子。對于A(3,4),B(5,6),C(3,5)D(-1,2)四個點(diǎn),如下圖所示:

 

 

我們現(xiàn)在要把他投影在一維坐標(biāo)上,我想大部分人都是想投影在x軸上,如圖:

等等,不是應(yīng)該四個點(diǎn)嗎,怎么映射變成了三個點(diǎn)了,如果現(xiàn)實是這樣,那豈不是丟失很多數(shù)據(jù)?那么我們的目標(biāo)現(xiàn)在就是找到一條直線,讓這四個點(diǎn)都能在投影在這個直線上,那么數(shù)據(jù)就不會缺少,而且讓各個點(diǎn)之間的距離最大化。這個有點(diǎn)像我之前說的LDA,

網(wǎng)友評論