基于知網(wǎng)義原信息量的詞語相似度的計算方法
基于知網(wǎng)義原信息量的詞語相似度的計算方法
摘要:國內(nèi)利用知網(wǎng)計算中文詞語相似度通常采用基于義原距離的方法,這些方法依賴于公式設(shè)計和參數(shù)選取。根據(jù)信息論中計算兩個事物相似度的思想,利用知網(wǎng)的分類體系來計算詞語所包含的義原信息量,將義原及其角色關(guān)系的信息量作為詞語相似度計算的基本單位,通過計算兩個詞語的共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量的比值來綜合計算詞語的相似度。實(shí)驗(yàn)結(jié)果證明,該方法合理可行。
關(guān)鍵詞:義原信息量;角色關(guān)系;詞語相似度;信息處理
中圖分類號:TP391
作者簡介作者簡介:李國佳(1986-),男,山西大同人,碩士,華北水利水電大學(xué)軟件學(xué)院助教,研究方向?yàn)樽匀徽Z言處理;楊喜亮(1981-),男,河南鄭州人,碩士,華北水利水電大學(xué)現(xiàn)代教育技術(shù)中心助教,研究方向?yàn)橹悄苄畔⑻幚怼?/p>
0 引言
本文從整體性角度出發(fā),給出一種基于義原信息量計算中文詞語相似度的方法;谥W(wǎng)的分類體系(Taxonomy),將義原及其角色關(guān)系整體作為詞語相似度計算的基本單位,保留了描述詞語概念的各個義原間的關(guān)系,并依據(jù)信息論中計算兩個事物相似度的思想[4],用兩個詞語共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量來綜合計算詞語的相似度。
1 知網(wǎng)義原信息量
1.1 義原信息量
其中,P(A)表示義原A在某個語料庫樣本空間中出現(xiàn)的概率。計算語料庫樣本空間中某個義原出現(xiàn)的概率很困難。知網(wǎng)作為一個以各類概念及關(guān)系為描述對象的知識系統(tǒng),其分類體系本身可以看作是各個義原出現(xiàn)的一個樣本空間,那么僅依賴知網(wǎng)分類體系本身而不需其它語料庫,作為計算義原出現(xiàn)概率的樣本空間也是合理的。本文給出一種根據(jù)知網(wǎng)的分類體系來計算義原信息量的方法。
由義原組成的知網(wǎng)分類體系是一棵概念分類樹,在每類義原樹狀層次結(jié)構(gòu)(以下簡稱為義原樹)中,根結(jié)點(diǎn)義原是分類類別,是最大的分類,其它義原都是根結(jié)點(diǎn)義原的子孫?梢哉J(rèn)為,分支結(jié)點(diǎn)義原包含越多的子孫結(jié)點(diǎn),其信息量越小。葉子結(jié)點(diǎn)是最小的分類,所有葉子結(jié)點(diǎn)的信息量是相同的。
在知網(wǎng)的知識詞典中,每個詞語由DEF來描述其概念。將DEF分為兩部分:主類義原和特性描述部分。
定義1:義原及其角色關(guān)系。
在詞語概念DEF的特性描述部分中,將義原及動態(tài)角色與特征(Event Role and Features)[9]的層次結(jié)構(gòu)的組合稱為義原及其角色關(guān)系。
定義2:主類義原。
在詞語概念DEF中,把描述詞語概念最左邊的第一個義原稱為主類義原,也稱為第0層義原及其角色關(guān)系。
例如詞語“病菌”的一個概念:DEF={bacteria|微生物:domain={medical|醫(yī)},modifier={able|能:scope={ResultIn|導(dǎo)致:result={disease|疾病}}}}。在“病菌”的`DEF中,將“bacteria|微生物”稱為主類義原,其它部分是特性描述部分。在特性描述部分中,將“domain={medical|醫(yī)}”、“modifier={able|能 }”稱為DEF的第一層義原及其角色關(guān)系,其中包含兩個本層義原“medical|醫(yī)”和“medical|醫(yī)”;把“scope={ResultIn|導(dǎo)致}”稱為第二層義原及其角色關(guān)系,包含一個本層義原“ResultIn|導(dǎo)致”,將“result={disease|疾病}”稱為第三層的義原及其角色關(guān)系,包含一個本層義原“disease|疾病”,依次類推。
其中,I(pj)表示r所包含的第j個義原pj的信息量。
例如在詞語“病菌”的DEF中,每層的義原及其角色關(guān)系中包含的本層義原信息量均為3.346,根據(jù)式(4)可得“病菌”的義原及其角色關(guān)系的總信息量為7.946。
1.3 共有義原及其角色關(guān)系的信息量
2 實(shí)驗(yàn)結(jié)果及分析
綜合來看,本文方法的結(jié)果整體表現(xiàn)更加合理,能夠反映出詞語間語義的相似性和差異,與人的判斷結(jié)果比較一致,計算也簡單。
3 結(jié)語
基于知網(wǎng)義原信息量計算中文詞語相似度的方法根據(jù)信息論中計算兩個事物相似度的思想,利用知網(wǎng)的分類體系來計算義原信息量,并根據(jù)知網(wǎng)這一關(guān)系系統(tǒng)的特性,從保留義原間關(guān)系的角度出發(fā),將義原及其角色關(guān)系作為計算概念相似度的基本單位,更能全面反映詞語語義的相似性和差異;谥W(wǎng)通過義原及其角色關(guān)系的信息量來綜合計算詞語的相似度,計算量較少,計算結(jié)果合理可行。在詞語相似度計算基礎(chǔ)上,進(jìn)一步研究句子間相似度計算方法,則有待下一步研究。
參考文獻(xiàn):
[2] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計算[C]. 臺北:第三屆漢語詞匯語義學(xué)研討會,2002,7(2):5976.
[3] 董振東,董強(qiáng),郝長伶.《知網(wǎng)》的理論發(fā)現(xiàn)[J].中文信息學(xué)報,2007,21(4):39.
[6] 夏天.漢語詞語語義相似度計算研究[J].計算機(jī)工程,2007, 33(6):191194.
[8] 王小林,王義.改進(jìn)的基于知網(wǎng)的詞語相似度算法[J].計算機(jī)應(yīng)用,2011,31(11):7590.