正則表達(dá)式和文本挖掘（Text Mining）

發(fā)布時間：2016年10月26日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

正則表達(dá)式和文本挖掘（Text Mining）

在進(jìn)行文本挖掘時，TSQL中的通配符（Wildchar）顯得功能不足，這時，使用“CLR+正則表達(dá)式”是非常不錯的選擇，正則表達(dá)式看似非常復(fù)雜，但，萬變不離其宗，熟練掌握正則表達(dá)式的元數(shù)據(jù)，就能熟練和靈活使用正則表達(dá)式完成復(fù)雜的Text Mining工作。

一，正則表達(dá)式的特殊字符

1，常用元字符

用以匹配特定的字符（字母，數(shù)字，符號），注意字母是區(qū)分大小寫的：

. ：匹配除換行符以外的任意字符
\w ：匹配字母或數(shù)字或下劃線或漢字
\s ：匹配任意的空白符
\d ：匹配數(shù)字
\b ：匹配單詞的開始或結(jié)束
^ ：匹配字符串的開始
$ ：匹配字符串的結(jié)束
\k ：引用分組名，例如:\k<group_name>，表示引用名字為group_name的分組
\group_number：group_number是分組的組號，1，2，3等，表示通過組號引用分組

2，重復(fù)字符或分組

指定前面一個字符或分組重復(fù)的次數(shù)：

* ：重復(fù)零次或更多次
+ ：重復(fù)一次或更多次
? ：重復(fù)零次或一次
{n} ：重復(fù)n次
{n,}
網(wǎng)友評論

更多精彩分享

學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

正則表達(dá)式和文本挖掘（Text Mining）

正則表達(dá)式和文本挖掘（Text Mining）

網(wǎng)友評論

更多精彩分享