久久精品电影网_久久久久久电影_久久99精品久久久久久按摩秒播_天堂福利影院_国产男女爽爽爽免费视频_国产美女久久

中級職稱論文基于知網義原信息量的詞語相似度計算方法

所屬欄目:計算機網絡論文 發布日期:2015-07-14 13:51 熱度:

  詞語相似度分析是知網檢測中的一個重要指標,在信息檢索,分類,選取的時候都會用到詞語相似度分析。本文就針對基于知網義原信息量的詞語相似度計算方法展開了一些論述,文章是一篇中級職稱論文范文,有需要發表文章的作者可以聯系本站在線編輯快速投稿。

  摘要:國內利用知網計算中文詞語相似度通常采用基于義原距離的方法,這些方法依賴于公式設計和參數選取。根據信息論中計算兩個事物相似度的思想,利用知網的分類體系來計算詞語所包含的義原信息量,將義原及其角色關系的信息量作為詞語相似度計算的基本單位,通過計算兩個詞語的共有義原及其角色關系的信息量和所有義原及其角色關系的信息量的比值來綜合計算詞語的相似度。實驗結果證明,該方法合理可行。

  關鍵詞:義原信息量,角色關系,詞語相似度,信息處理

  0 引言

  詞語相似度計算在信息檢索、文本分類、信息抽取、機器翻譯等領域有著廣泛應用。目前,詞語相似度的計算方法主要有兩大類:一類是基于距離的方法,如基于WordNet中詞語結點的距離來計算英語詞語的語義相似度[1],基于知網(Hownet)義原距離來計算中文詞語的語義相似度[23];另一類是基于語料統計的方法,這類方法假設凡是語義相近的詞語,它們的上下文也應該相似,利用上下文中詞語的概率分布來計算詞語相似度[45]。

  自1999年知網(HowNet)正式發布以來,其受到越來越多研究人員的關注。基于知網計算中文詞語的相似度也誕生了很多方法[2,68],這些方法通常根據意義分解思想,將詞語分解為更小單位(義原)參與相似度計算,再按照權重比例綜合計算詞語整體相似度。利用詞語分解后的單位(義原)參與計算,割裂了描述詞語的各個義原之間的關系,不能充分反應出詞語間語義的相似性,計算結果也不夠理想。

  本文從整體性角度出發,給出一種基于義原信息量計算中文詞語相似度的方法。基于知網的分類體系(Taxonomy),將義原及其角色關系整體作為詞語相似度計算的基本單位,保留了描述詞語概念的各個義原間的關系,并依據信息論中計算兩個事物相似度的思想[4],用兩個詞語共有義原及其角色關系的信息量和所有義原及其角色關系的信息量來綜合計算詞語的相似度。

  1 知網義原信息量

  1.1 義原信息量

  其中,P(A)表示義原A在某個語料庫樣本空間中出現的概率。計算語料庫樣本空間中某個義原出現的概率很困難。知網作為一個以各類概念及關系為描述對象的知識系統,其分類體系本身可以看作是各個義原出現的一個樣本空間,那么僅依賴知網分類體系本身而不需其它語料庫,作為計算義原出現概率的樣本空間也是合理的。本文給出一種根據知網的分類體系來計算義原信息量的方法。

  由義原組成的知網分類體系是一棵概念分類樹,在每類義原樹狀層次結構(以下簡稱為義原樹)中,根結點義原是分類類別,是最大的分類,其它義原都是根結點義原的子孫。可以認為,分支結點義原包含越多的子孫結點,其信息量越小。葉子結點是最小的分類,所有葉子結點的信息量是相同的。

  1.2 義原及其角色關系的信息量

  在知網的知識詞典中,每個詞語由DEF來描述其概念。將DEF分為兩部分:主類義原和特性描述部分。

  定義1:義原及其角色關系。

  在詞語概念DEF的特性描述部分中,將義原及動態角色與特征(Event Role and Features)[9]的層次結構的組合稱為義原及其角色關系。

  定義2:主類義原。

  在詞語概念DEF中,把描述詞語概念最左邊的第一個義原稱為主類義原,也稱為第0層義原及其角色關系。

  例如詞語“病菌”的一個概念:DEF={bacteria|微生物:domain={medical|醫},modifier={able|能:scope={ResultIn|導致:result={disease|疾病}}}}。在“病菌”的DEF中,將“bacteria|微生物”稱為主類義原,其它部分是特性描述部分。在特性描述部分中,將“domain={medical|醫}”、“modifier={able|能 }”稱為DEF的第一層義原及其角色關系,其中包含兩個本層義原“medical|醫”和“medical|醫”;把“scope={ResultIn|導致}”稱為第二層義原及其角色關系,包含一個本層義原“ResultIn|導致”,將“result={disease|疾病}”稱為第三層的義原及其角色關系,包含一個本層義原“disease|疾病”,依次類推。

  其中,I(pj)表示r所包含的第j個義原pj的信息量。

  例如在詞語“病菌”的DEF中,每層的義原及其角色關系中包含的本層義原信息量均為3.346,根據式(4)可得“病菌”的義原及其角色關系的總信息量為7.946。

  在知網中,包含幾種特殊符號,如“~”、“?”、“MYM”、“*”。其中,“~”表達的含義是充當一個具體動態角色的值,“?”表示所充當的動態角色的演員一定會出現,“MYM”表示充當某一個動態角色的演員[9] 。設定模式為“{義原1:{義原2: 動態角色或特征={~}}}”情況下,“~”所表達內容的信息量等于義原1的信息量。將其它特殊符號及動態角色的信息量設定為一個常數,大小與具體詞的信息量相同,為3.346。一個沒有義原描述的具體詞,其信息量為一個常數,其大小可規定為一個葉子義原結點的信息量3.346。

  1.3 共有義原及其角色關系的信息量

  3 實驗結果及分析

  目前沒有可以評估中文詞語語義相似度算法質量的專用數據集,本文選取一些常用詞語和知網漢語詞典中以“病”開頭的一些相關詞語作為實驗對象,與國內著名的劉群方法[2]、知網在線[9]的詞語相似度計算方法進行對比分析。劉群方法、知網在線和本文方法的實驗參數如表1所示。詞語相似度實驗結果如表2所示。   本文方法與劉群方法、知網在線方法相比較可知,劉群方法是基于義原距離來計算詞語相似度,當義原處在同一類義原樹中,詞語的相似度偏大,例如第3、6組詞語相似度結果比本文及知網在線方法的結果都偏大,與人的判斷也不一致。實際上,劉群方法在詞語相似度計算上不夠重視能反映出詞語差異的特性描述部分,使得詞語相似度計算結果的差異性不夠明顯,例如第4組詞語間相似度結果過于接近。

  知網在線方法在計算詞語的相似性時更加細化,將詞語的義原結構分解為多個部分,賦予各部分不同的權重然后加權計算得到整體間的相似度。這種方法實際上進一步割裂了描述詞語的各個義原之間的關系,使得詞語相似度計算的結果也不夠準確,例如第1、2、5、8、9組詞語,計算結果偏小。另外,知網在線方法對詞語特性描述部分計算比較復雜,計算量也較大。

  綜合來看,本文方法的結果整體表現更加合理,能夠反映出詞語間語義的相似性和差異,與人的判斷結果比較一致,計算也簡單。

  4 結語

  基于知網義原信息量計算中文詞語相似度的方法根據信息論中計算兩個事物相似度的思想,利用知網的分類體系來計算義原信息量,并根據知網這一關系系統的特性,從保留義原間關系的角度出發,將義原及其角色關系作為計算概念相似度的基本單位,更能全面反映詞語語義的相似性和差異。基于知網通過義原及其角色關系的信息量來綜合計算詞語的相似度,計算量較少,計算結果合理可行。在詞語相似度計算基礎上,進一步研究句子間相似度計算方法,則有待下一步研究。

  參考文獻:

  [1] ENEKO AGIRRE,GERMAN RIGAU.A proposal for word sense disambiguation using conceptual distance[C].Proceedings of the First International Conference on Recent Advanced in NLP,1995:258264.

  [2] 劉群,李素建.基于《知網》的詞匯語義相似度的計算[C]. 臺北:第三屆漢語詞匯語義學研討會,2002,7(2):5976.

  [3] 董振東,董強,郝長伶.《知網》的理論發現[J].中文信息學報,2007,21(4):39.

  [4] DEKANG LIN.An informationtheoretic definition of similarity[C].Proceedings of the Fifteenth International Conference on Machine Learning,1998:296304.

  [5] PHILIP RESNIK.Semantic similarity in a taxonomy: an informationbased measure and its application to problems of ambiguity in natural language[J].Journal of Artificial Intelligence Research,1999(2):95130.

  [6] 夏天.漢語詞語語義相似度計算研究[J].計算機工程,2007, 33(6):191194.

  [7] 張亮,尹存燕,陳家駿.基于語義樹的中文詞語相似度計算與分析[J].中文信息學報, 2010,24(6):2330.

  [8] 王小林,王義.改進的基于知網的詞語相似度算法[J].計算機應用,2011,31(11):7590.

  中級職稱論文發表期刊推薦《山西電子技術》是山西省電子信息產業唯一公開發行的專業技術期刊。在30年的辦刊過程中,刊物一直堅持電子信息行業交流信息,探討技術的園地,主要宣傳報道電子信息領域新技術、新成果;為我省電子信息產業發展服務的辦刊宗旨。

文章標題:中級職稱論文基于知網義原信息量的詞語相似度計算方法

轉載請注明來自:http://www.56st48f.cn/fblw/dianxin/wangluo/27406.html

相關問題解答

SCI服務

搜論文知識網 冀ICP備15021333號-3

主站蜘蛛池模板: 在线视频日韩 | 亚洲日韩中文字幕 | 欧美一区二区三区视频在线观看 | 亚洲精品一区在线观看 | 中文字幕不卡在线观看 | 国产精品99 | 国产在线精品一区二区三区 | 三级免费| 久久一区二区av | 久久精品这里精品 | 成人在线观 | 亚洲国产精品一区二区三区 | 手机av网 | 久久高清国产视频 | 午夜天堂精品久久久久 | 成人午夜高清 | 欧美亚洲国语精品一区二区 | 亚洲日本一区二区三区四区 | 操操日| 黄色片在线看 | 日韩在线观看网站 | 日韩午夜场 | 91在线精品播放 | 午夜电影网站 | 精品视频免费在线 | 免费精品 | 超碰综合| 天天射网站 | 国产美女久久 | 久久亚洲欧美日韩精品专区 | 亚洲高清视频在线观看 | 国产a视频 | 国产乱码一区 | 奇米超碰 | 黑人一级黄色大片 | 国产农村一级片 | 亚洲国产精品久久久久 | 99免费视频 | 日韩在线观看中文字幕 | 毛片区| 亚洲区中文字幕 |