據(jù)我們所知,有‘已知的已知’,有些事,我們知道我們知道;我們也知道,有 ‘已知的未知’,也就是說,有些事,我們現(xiàn)在知道我們不知道。但是,同樣存在‘不知的不知’——有些事,我們不知道我們不知道。
上一章中分類和回歸都屬于監(jiān)督學(xué)習(xí)。當(dāng)目標(biāo)值是未知時(shí),需要使用非監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)不會(huì)學(xué)習(xí)如何預(yù)測(cè)目標(biāo)值。但是,它可以學(xué)習(xí)數(shù)據(jù)的結(jié)構(gòu)并找出相似輸入的群組,或者學(xué)習(xí)哪些輸入類型可能出現(xiàn),哪些類型不可能出現(xiàn)。
5.1 異常檢測(cè)
異常檢測(cè)常用于檢測(cè)欺詐、網(wǎng)絡(luò)攻擊、服務(wù)器及傳感設(shè)備故障。在這些應(yīng)用中,我們要能夠找出以前從未見過的新型異常,如新欺詐方式、新入侵方法或新服務(wù)器故障模式。
5.2 K均值聚類
聚類是最有名的非監(jiān)督學(xué)習(xí)算法,K均值聚類是應(yīng)用最廣泛的聚類算法。它試圖在數(shù)據(jù)集中找出k個(gè)簇群。在K均值算法中數(shù)據(jù)點(diǎn)相互距離一般采用歐氏距離。
在K均值算法中簇群其實(shí)是一個(gè)點(diǎn),即組成該簇的所有點(diǎn)的中信。數(shù)據(jù)點(diǎn)其實(shí)就是由所有數(shù)值型特征組成的特征向量,簡(jiǎn)稱向量。
簇群的中心稱為質(zhì)心,它是簇群中所有點(diǎn)的算術(shù)平均值,因此算法取名K均值。算法開始時(shí)選擇一些數(shù)據(jù)點(diǎn)作為簇群的質(zhì)心。然后把每個(gè)數(shù)據(jù)點(diǎn)分配給最近的質(zhì)心。接著對(duì)每個(gè)簇計(jì)算該簇所有數(shù)據(jù)點(diǎn)的平均值,并將其作為該簇的新質(zhì)心。然后不斷重復(fù)這個(gè)過程。
5.3 網(wǎng)絡(luò)入侵
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26