0 起因
由于博主之前做了一些文本挖掘的項目,在項目中或多或少的用到了分詞模塊,對于中文分詞,博主一般使用Python開發(fā)的jieba分詞組件。最近,博主想閱讀一些開源系統(tǒng),就先從jieba開始,一是因為jieba實現(xiàn)了NLP的一些基礎(chǔ)技術(shù),例如分詞、詞性標注;二是因為想學習學習大神們的編碼規(guī)范。
1 jieba系統(tǒng)簡介
"結(jié)巴"中文分詞:做最好的Python中文分詞組件。
特點:
- 支持三種分詞模式
- 支持繁體分詞
- 支持自定義詞典
- MIT授權(quán)協(xié)議
涉及算法:
- 基于前綴詞典實現(xiàn)詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(DAG),采用動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;
- 對于未登錄詞,采用了基于漢字成詞能力的 HMM模型,采用Viterbi算法進行計算;
- 分別基于tfidf和textrank模型抽取關(guān)鍵詞;
2 jieba系統(tǒng)框架
jieba分詞系統(tǒng),主要實現(xiàn)三個模塊,
- 分詞
- 詞性標注
- 關(guān)鍵詞抽取
其中,分詞有三種模式,默認是精確模式,
延伸閱讀
學習是年輕人改變自己的最好方式
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26