cs231n筆記：最優(yōu)化

發(fā)布時(shí)間：2016年11月15日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

引言

在上一節(jié)線性分類器中提到，分類方法主要有兩部分組成：1.基于參數(shù)的評(píng)分函數(shù)。能夠?qū)颖居成涞筋悇e的分值。2.損失函數(shù)。用來(lái)衡量預(yù)測(cè)標(biāo)簽和真是標(biāo)簽的一致性程度。這一節(jié)介紹第三個(gè)重要部分：最優(yōu)化（optimization）。損失函數(shù)能讓我們定量的評(píng)估得到的權(quán)重W的好壞，而最優(yōu)化的目標(biāo)就是找到一個(gè)W，使得損失函數(shù)最小。工作流程如下圖：

(x,y)是給定的數(shù)據(jù)集，W是權(quán)重矩陣，通過(guò)初始化得到。向前傳遞到評(píng)分函數(shù)中得到類別的評(píng)分值并存儲(chǔ)在向量f中。損失函數(shù)計(jì)算評(píng)分函數(shù)值f與類標(biāo)簽y的差值，正則化損失只是一個(gè)關(guān)于權(quán)重的函數(shù)。在梯度下降過(guò)程中，我們計(jì)算權(quán)重的梯度，然后使用梯度更新權(quán)重。一旦理解了這三個(gè)部分的關(guān)系，我們可以用更加復(fù)雜的評(píng)分函數(shù)來(lái)代替線性映射，比如神經(jīng)網(wǎng)絡(luò)、甚至卷積神經(jīng)網(wǎng)絡(luò)等，而損失函數(shù)和優(yōu)化過(guò)程這兩部分則相對(duì)保持不變。

梯度下降

梯度下降的思想是:要尋找某函數(shù)的最值，最好的方法就是沿著函數(shù)的梯度方向?qū)ふ?，移?dòng)量的大小稱為步長(zhǎng)。梯度下降的公式如下：

我們常常聽(tīng)說(shuō)過(guò)梯度上升、梯度下降，那么兩者的區(qū)別又是什么呢？其實(shí)這兩者是一樣的，只是公式中的減法變成加法，因此公式為：

梯度上升是用來(lái)求函數(shù)的最大值，而梯度下降是用來(lái)求最小值。普通的梯度下降版本如下：

#
        		網(wǎng)友評(píng)論

分類導(dǎo)航

cs231n筆記：最優(yōu)化

引言

梯度下降

網(wǎng)友評(píng)論

更多精彩分享