引言
在上一節(jié)線性分類器中提到,分類方法主要有兩部分組成:1.基于參數(shù)的評(píng)分函數(shù)。能夠?qū)颖居成涞筋悇e的分值。2.損失函數(shù)。用來(lái)衡量預(yù)測(cè)標(biāo)簽和真是標(biāo)簽的一致性程度。這一節(jié)介紹第三個(gè)重要部分:最優(yōu)化(optimization)。損失函數(shù)能讓我們定量的評(píng)估得到的權(quán)重W的好壞,而最優(yōu)化的目標(biāo)就是找到一個(gè)W,使得損失函數(shù)最小。工作流程如下圖:
(x,y)是給定的數(shù)據(jù)集,W是權(quán)重矩陣,通過(guò)初始化得到。向前傳遞到評(píng)分函數(shù)中得到類別的評(píng)分值并存儲(chǔ)在向量f中。損失函數(shù)計(jì)算評(píng)分函數(shù)值f與類標(biāo)簽y的差值,正則化損失只是一個(gè)關(guān)于權(quán)重的函數(shù)。在梯度下降過(guò)程中,我們計(jì)算權(quán)重的梯度,然后使用梯度更新權(quán)重。一旦理解了這三個(gè)部分的關(guān)系,我們可以用更加復(fù)雜的評(píng)分函數(shù)來(lái)代替線性映射,比如神經(jīng)網(wǎng)絡(luò)、甚至卷積神經(jīng)網(wǎng)絡(luò)等,而損失函數(shù)和優(yōu)化過(guò)程這兩部分則相對(duì)保持不變。
梯度下降
梯度下降的思想是:要尋找某函數(shù)的最值,最好的方法就是沿著函數(shù)的梯度方向?qū)ふ?,移?dòng)量的大小稱為步長(zhǎng)。梯度下降的公式如下:
我們常常聽(tīng)說(shuō)過(guò)梯度上升、梯度下降,那么兩者的區(qū)別又是什么呢?其實(shí)這兩者是一樣的,只是公式中的減法變成加法,因此公式為:
梯度上升是用來(lái)求函數(shù)的最大值,而梯度下降是用來(lái)求最小值。普通的梯度下降版本如下:
#
網(wǎng)友評(píng)論