摘要:NLTK是由賓夕法尼亞大學計算機和信息科學使用python語言實現的一種自然語言工具包,其收集的大量公開數據集、模型上提供了全面、易用的接口,涵蓋了分詞、詞性標注(Part-Of-Speech tag, POS-tag)、命名實體識別(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各項 NLP 領域的功能。本文主要介紹:1)怎樣編寫程序訪問本地和網絡上的文件,從而獲得無限的語言材料?2)如何把文檔分割成單獨的單詞和標點符號,并進行文本語料上的分析?3)怎樣編寫程序產生格式化輸出,并把結果保存在文件中?關于Python基礎知識可以參看本人的【Python五篇慢慢彈】系列文章(本文原創(chuàng)編著,轉載注明出處:Python NLTK處理原始文本)
目錄
【Python NLP】干貨!詳述Python NLTK下如何使用stanford NLP工具包(1)
【Python NLP】Python 自然語言處理工具小結(2)
【Python NLP】Python NLTK 走進大秦帝國(3)
【Python NLP】Python NLTK獲取文本語料和詞匯資源(4)
【Python NLP】Python NLTK處理原始文本(5)
關于處理原始文本部分導入語句:
>>> from __future__ import division >>> import nltk,re,pprint
1 從網絡和硬盤訪問文本(在線獲取傷寒雜病論)
python網絡訪問程序: <