當我們在談論kmeans(1)
引言
當希望快速了解或回顧某些算法的發(fā)展時,一般而言,大家都會選擇閱讀綜述性文章,然后有選擇性的閱讀部分論文。而這種高效率的做法的負面,就是比較無趣的體驗,畢竟一直都行走在別人規(guī)劃好的思路中,總感覺少了點趣味性。
此系列文章一方面旨在回顧一些算法的歷史演變軌跡;同時,看看能否挖掘出更多有趣或有意義的信息,讓算法之路走的歡脫一點。
作為練手,本次先從k-means這個最基本的機器學習算法之一開始。
數(shù)據(jù)準備
從IEEE上抓取“標題或摘要中含有kmeans或相關(guān)關(guān)鍵詞的論文”的部分公開信息,對于現(xiàn)在已有的信息,我關(guān)注的主要是title、authors、keywords、abstract、publicationYear、isConference(是否是會議文章)。抓取到數(shù)據(jù)后,將數(shù)據(jù)存入mongodb,后續(xù)使用python+jupyter來分析。
受限于抓取難度,以及本人初步的爬蟲水平,并沒有抓reference,這對接下來的數(shù)據(jù)挖掘是一個遺憾。若有同學比較擅長爬蟲,歡迎私信或留言交流!(IEEE的網(wǎng)站說明里聲明禁止爬蟲,因此政治正確上最好是不要去爬的,此處也不討論具體的技術(shù)細節(jié))
數(shù)據(jù)總覽
論文數(shù)量
1969-2016年,每年IEEE收錄關(guān)于kmeans的論文數(shù)量如下圖。其中藍色表示當年總文章數(shù)量,綠色表示當年期刊論文數(shù)量,紅色表示當年會議文章數(shù)量。
從圖中可以得出以下幾點結(jié)論:
1.1990年以前,kmeans相關(guān)文章很少,多的時候每年出版的總文章數(shù)量是1,少的時候則沒有任何相關(guān)文章出版;90年代作為明顯的過渡期,其之前與之后論文數(shù)量與趨勢的變化是翻天覆地的;
2.會議文章占了總文章數(shù)量的絕大多數(shù):在抓取的6000多篇文章中,會議文章總5476篇,而期刊數(shù)量540篇,只有會議文章的1/10;而每年的會議文章跟期刊文章的比值也差不多這個數(shù);
3.kmeans相關(guān)會議文章數(shù)量在2005-2010和2013-2015幾年間出現(xiàn)了爆炸性