1 簡介

jieba分詞主要是基于統(tǒng)計(jì)詞典,構(gòu)造一個前綴詞典;然后利用前綴詞典對輸入句子進(jìn)行切分,得到所有的切分可能,根據(jù)切分位置,構(gòu)造一個有向無環(huán)圖;通過動態(tài)規(guī)劃算法,計(jì)算得到最大概率路徑,也就得到了最終的切分形式。

2 實(shí)例講解

以“去北京大學(xué)玩”為例,作為待分詞的輸入文本。

離線統(tǒng)計(jì)的詞典形式如下,每一行有三列,第一列是詞,第二列是詞頻,第三列是詞性。

... 北京大學(xué) 2053 nt
大學(xué) 20025 n
去 123402 v
玩 4207 v
北京 34488 ns
北 17860 ns
京 6583 ns
大 144099 a
學(xué) 17482 n ...

2.1 前綴詞典構(gòu)建

首先是基于統(tǒng)計(jì)詞典構(gòu)造前綴詞典,如統(tǒng)計(jì)詞典中的詞“北京大學(xué)”的前綴分別是“北”、“北京”、“北京大”;詞“大學(xué)”的前綴是“大”。統(tǒng)計(jì)詞典中所有的詞形成的前綴詞典如下所示,你也許會注意到“北京大”作為“北京大學(xué)”的前綴,但是它的詞頻卻為0,這是為了便于后面有向無環(huán)圖的構(gòu)建。

... 北京大學(xué) 2053 北京大 0 大學(xué) 200251234024207 北京 34488178606583144099 學(xué) 17482 ...

2.2 有向無環(huán)圖構(gòu)建

網(wǎng)友評論