在我們平時(shí)看NBA的時(shí)候,可能我們只關(guān)心球員是否能把球打進(jìn),而不太關(guān)心這個(gè)球的顏色,品牌,只要有3D效果,看到球員扣籃的動(dòng)作就可以了,比如下圖:
如果我們直接對(duì)籃球照片進(jìn)行幾百萬像素的處理,會(huì)有幾千維甚至幾萬維的數(shù)據(jù)要計(jì)算,計(jì)算量很大。而往往我們只需要大概勾勒出籃球的大概形狀就可以描述問題,所以必須對(duì)此類數(shù)據(jù)降維,這樣會(huì)使處理數(shù)據(jù)更加輕松。這個(gè)在人臉識(shí)別中必須要降維,因?yàn)槲覀冊(cè)谧鎏卣魈崛〉臅r(shí)候幾萬維的數(shù)據(jù)很難全部有效計(jì)算,PCA技術(shù)作為四大降維技術(shù)之一對(duì)于此類問題有很好的處理效果。
一 前瞻知識(shí)
向量的內(nèi)積,矩陣的意義,矩陣特征值,正交基,方差,協(xié)方差。
二 降維的概念
降維通俗地說,就是把高維數(shù)據(jù)降成低維數(shù)據(jù)。因?yàn)閷?duì)于機(jī)器學(xué)習(xí)算法,處理上萬級(jí)別維數(shù)的數(shù)據(jù)是家常便飯的事情,但是處理是能處理,這會(huì)帶來巨大的時(shí)間開銷。影響算法的時(shí)間復(fù)雜度,降維就是在減少維數(shù)的前提下,盡量保證數(shù)據(jù)的完整性。這里需要說明的是,降維不是單純的刪除掉某些特征值,而是把高維數(shù)據(jù)通過一定的矩陣變換映射到低維空間,現(xiàn)在我們舉一個(gè)例子。對(duì)于A(3,4),B(5,6),C(3,5)D(-1,2)四個(gè)點(diǎn),如下圖所示:
我們現(xiàn)在要把他投影在一維坐標(biāo)上,我想大部分人都是想投影在x軸上,如圖:
等等,不是應(yīng)該四個(gè)點(diǎn)嗎,怎么映射變成了三個(gè)點(diǎn)了,如果現(xiàn)實(shí)是這樣,那豈不是丟失很多數(shù)據(jù)?那么我們的目標(biāo)現(xiàn)在就是找到一條直線,讓這四個(gè)點(diǎn)都能在投影在這個(gè)直線上,那么數(shù)據(jù)就不會(huì)缺少,而且讓各個(gè)點(diǎn)之間的距離最大化。這個(gè)有點(diǎn)像我之前說的LDA,