Text文檔編碼識(shí)別方法

發(fā)布時(shí)間：2016年11月22日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點(diǎn)擊查看原文)

Text文檔編碼識(shí)別方法

在做文檔讀取的時(shí)候，時(shí)常碰到編碼格式不正確的問題，而要怎么樣正確識(shí)別文檔的編碼格式，成了很多程序員的一塊心病，今天我就要試著治好這塊心病，這段代碼的濃縮來自上千萬文檔的數(shù)據(jù)分析所得，可靠率極其高。

應(yīng)朋友要求，需要幫他做一個(gè)文章操作工具，既然想操作，就有文件的讀取和修改，本來花費(fèi)幾個(gè)小時(shí)信心滿滿把程序交給朋友的時(shí)候，朋友突然來了句，很多文章打開出現(xiàn)亂碼的情況，我哩個(gè)去，像是晴天霹靂深深的擊在我的心窩里，我突然想到了文件編碼問題，而這個(gè)問題，我曾經(jīng)無數(shù)次的嘗試，最終都以失敗而告終，每次嘗試，只不過是減少了錯(cuò)誤概率的出現(xiàn)，但是還不足以彌補(bǔ)文件編碼格式分析完全的正確，而這次，朋友又提出來編碼問題，我瞬間凌亂了。

如果不把這個(gè)問題解決，給朋友做的工具等于沒有任何作用，我TM前兩天還吃人家一頓大餐，難道還能吐出來嗎？這個(gè)搞不定，面子就丟大了，無奈之下，我詢問了朋友那里有多少文件？得到答復(fù)：好幾千萬。瞬間我眼光放亮了，那就海量數(shù)據(jù)分析吧。

海量數(shù)據(jù)分析的時(shí)候，我使用的是一個(gè)笨方法，就是把所有文件頭數(shù)據(jù)讀取出來，比如讀取4個(gè)byte，然后將讀取的文件內(nèi)容的前一百個(gè)字以（Unicode，UnicodeBigEndian，UTF8，ANSI等等）讀取出來，肉眼識(shí)別吧，比如

public class Info{

public int ch0;//第一個(gè)字符

public int ch1;//第二個(gè)字符

public int ch2;//第三個(gè)字符

public int ch3;//第四個(gè)字符

public string UnicodeStr;//前100個(gè)字

public string UnicodeBigEndianStr;//前100個(gè)字

public string UTF8Str;//前100個(gè)字

public string ANSIStr;//前100個(gè)字

}

然后使用lambda做排序，個(gè)人建議對(duì)UnicodeStr，UnicodeBigEndianStr，UTF8Str，ANSIStr這些做排序，因?yàn)榭勺R(shí)別的字符編碼有一定的區(qū)間范圍，做排序后，可識(shí)別漢字的一定都堆在一起；

再有就是可以對(duì) ch0,ch1,ch2,ch3,做詳細(xì)分類，看看它們之間都有什么樣的關(guān)系，通過觀察，我也是能發(fā)現(xiàn)什么的；通過歸納和總結(jié)，就得出了TEXT編碼的可識(shí)別方法，如下：


        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識(shí)別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

Text文檔編碼識(shí)別方法

延伸閱讀

我想了解如何學(xué)習(xí)