知網董振東
『壹』 如何計算基於特徵的相似度
如何計算基於特徵的相似度
如何計算句子的語義相似度,很容易想到的是向量空間模型(VSM)和編輯距離的方法,比如A:「我爸是李剛」,B:「我兒子是李剛」,利用VSM方法A(我,爸,是,李剛)B(我,兒子,是,李剛),計算兩個向量的夾角餘弦值,不贅述;編輯距離就更好說了將「爸」,「兒子」分別替換掉,D(A,B)= replace_cost;
這是兩種相當呆的方法,屬於baseline中的baseline,換兩個例子看一下就知道A:「樓房如何建造?」,B:「高爾夫球怎麼打?」,C:「房子怎麼蓋?」,如果用VSM算很明顯由於B,C中有共同的詞「怎麼」,所以BC相似度高於AC;編輯距離同理;
解決這種問題方法也不難,只要通過同義詞詞典對所有句子進行擴展,「如何」、「怎麼」,「樓房」、「房子」都是同義詞或者近義詞,擴展後再算vsm或者edit distance對這一問題即可正解.這種方法一定程度上解決了召回率低的問題,但是擴展後引入雜訊在所難免,尤其若原句中含有多義詞時.例如:「打醬油」、「打毛衣」.在漢字中有些單字詞表達了相當多的意義,在董振東先生的知網(hownet)中對這種類型漢字有很好的語義關系解釋,通過hownet中詞語到義元的樹狀結構可以對對詞語粒度的形似度進行度量.
問題到這里似乎得到了不錯的解答,但實際中遠遠不夠.VSM的方法把句子中的詞語看做相互獨立的特徵,忽略了句子序列關系、位置關系對句子語義的影響;Edit Distance考慮了句子中詞語順序關系,但是這種關系是機械的置換、移動、刪除、添加,實際中每個詞語表達了不同的信息量,同樣的詞語在不同詞語組合中包含的信息量或者說表達的語義信息大不相同.What about 句法分析,計算句法樹的相似度?這個比前兩種方法更靠譜些,因為句法樹很好的描述了詞語在句子中的地位.實際效果要待實驗證實.
對了,還有一種方法translation model,IBM在機器翻譯領域的一大創舉,需要有大量的語料庫進行訓練才能得到理想的翻譯結果.當然包括中間詞語對齊結果,如果能夠利用web資源建立一個高質量的語料庫對兩兩相似句對通過EM迭代詞語對齊,由詞語對齊生成句子相似度,這個.想想還是不錯的方法!
『貳』 如何計算兩個句子的相似度
如何計算句子的語義相似度,很容易想到的是向量空間模型(VSM)和編輯距離的方法,比如A:「我爸是李剛」,B:「我兒子是李剛」,利用VSM方法A(我,爸,是,李剛)B(我,兒子,是,李剛),計算兩個向量的夾角餘弦值,不贅述;編輯距離就更好說了將「爸」,「兒子」分別替換掉,D(A,B)= replace_cost;
這是兩種相當呆的方法,屬於baseline中的baseline,換兩個例子看一下就知道A:「樓房如何建造?」,B:「高爾夫球怎麼打?」,C:「房子怎麼蓋?」,如果用VSM算很明顯由於B,C中有共同的詞「怎麼」,所以BC相似度高於AC;編輯距離同理;
解決這種問題方法也不難,只要通過同義詞詞典對所有句子進行擴展,「如何」、「怎麼」,「樓房」、「房子」都是同義詞或者近義詞,擴展後再算vsm或者edit distance對這一問題即可正解。這種方法一定程度上解決了召回率低的問題,但是擴展後引入雜訊在所難免,尤其若原句中含有多義詞時。例如:「打醬油」、「打毛衣」。在漢字中有些單字詞表達了相當多的意義,在董振東先生的知網(hownet)中對這種類型漢字有很好的語義關系解釋,通過hownet中詞語到義元的樹狀結構可以對對詞語粒度的形似度進行度量。
問題到這里似乎得到了不錯的解答,但實際中遠遠不夠。VSM的方法把句子中的詞語看做相互獨立的特徵,忽略了句子序列關系、位置關系對句子語義的影響;Edit Distance考慮了句子中詞語順序關系,但是這種關系是機械的置換、移動、刪除、添加,實際中每個詞語表達了不同的信息量,同樣的詞語在不同詞語組合中包含的信息量或者說表達的語義信息大不相同。What about 句法分析,計算句法樹的相似度?這個比前兩種方法更靠譜些,因為句法樹很好的描述了詞語在句子中的地位。實際效果要待實驗證實。
對了,還有一種方法translation model,IBM在機器翻譯領域的一大創舉,需要有大量的語料庫進行訓練才能得到理想的翻譯結果。當然包括中間詞語對齊結果,如果能夠利用web資源建立一個高質量的語料庫對兩兩相似句對通過EM迭代詞語對齊,由詞語對齊生成句子相似度,這個。。想想還是不錯的方法!
『叄』 如何度量兩個詞之間的語義相似度
如何度量兩個詞之間的語義相似度
如何度量句子的語義相似度,很容易想到的是向量空間模型(VSM)和編輯距離的方法,比如A:「我爸是李剛」,B:「我兒子是李剛」,利用VSM方法A(我,爸,是,李剛)B(我,兒子,是,李剛),計算兩個向量的夾角餘弦值,不贅述;編輯距離就更好說了將「爸」,「兒子」分別替換掉,D(A,B)= replace_cost;
這是兩種相當呆的方法,屬於baseline中的baseline,換兩個例子看一下就知道A:「樓房如何建造?」,B:「高爾夫球怎麼打?」,C:「房子怎麼蓋?」,如果用VSM算很明顯由於B,C中有共同的詞「怎麼」,所以BC相似度高於AC;編輯距離同理;
解決這種問題方法也不難,只要通過同義詞詞典對所有句子進行擴展,「如何」、「怎麼」,「樓房」、「房子」都是同義詞或者近義詞,擴展後再算vsm或者edit distance對這一問題即可正解。這種方法一定程度上解決了召回率低的問題,但是擴展後引入雜訊在所難免,尤其若原句中含有多義詞時。例如:「打醬油」、「打毛衣」。在漢字中有些單字詞表達了相當多的意義,在董振東先生的知網(hownet)中對這種類型漢字有很好的語義關系解釋,通過hownet中詞語到義元的樹狀結構可以對對詞語粒度的形似度進行度量。
問題到這里似乎得到了不錯的解答,但實際中遠遠不夠。VSM的方法把句子中的詞語看做相互獨立的特徵,忽略了句子序列關系、位置關系對句子語義的影響;Edit Distance考慮了句子中詞語順序關系,但是這種關系是機械的置換、移動、刪除、添加,實際中每個詞語表達了不同的信息量,同樣的詞語在不同詞語組合中包含的信息量或者說表達的語義信息大不相同。What about 句法分析,計算句法樹的相似度?這個比前兩種方法更靠譜些,因為句法樹很好的描述了詞語在句子中的地位。實際效果要待實驗證實。
對了,還有一種方法translation model,IBM在機器翻譯領域的一大創舉,需要有大量的語料庫進行訓練才能得到理想的翻譯結果。當然包括中間詞語對齊結果,如果能夠利用web資源建立一個高質量的語料庫對兩兩相似句對通過EM迭代詞語對齊,由詞語對齊生成句子相似度,這個。。想想還是不錯的方法!
『肆』 有沒有人利用知網知識系統做特徵的語義擴展在哪裡可以找到完整的知網知識系統(董振東的)
兄弟,關於知網知識系統的事,有啥進展嗎?俺也想了解。
『伍』 什麼是第一發明人
審查指南中規定的第一發明人需要填寫身份證號,由此將帶來一些隱性的權利或者權力。
個人以為:
1、第二發明人等不填寫身份證號,由於可能存在同名同姓的情況,假設出現了名譽權糾紛,則由於第一發明人是唯一沒有疑義的,因此,他可以提供有力證言。
2、當然,有人可能會說,這時單位可以做出證言證明到底誰是第二發明人。這在通常情況下當然沒有問題。但深入考慮,是否又存在這樣的疑問:究竟第一發明人與專利權人,誰的證言更有力?
雖然當初在提交專利申請時,第一發明人是「被」專利申請人寫進「發明人」一欄的,但是一旦確立了這個第一發明人,就是承認了該發明人的工作成果和名譽權,那麼後續一切與發明人權益相關的事務,第一發明人作為研發團隊中的重要一員,其立場和證言往往尤為關鍵。
專利權人若與第一發明人證言不同,當然可以考慮做發明人變更,可是要知道,這個變更程序必須要有原第一發明人的簽字。這時矛盾如何解決?就只有舉證了。可舉證難度,可想而知,如果沒有嚴格的研發記錄(會簽),哪怕你一共有10個發明人,恐怕都未必抵得上有身份證號的第一發明人。
『陸』 董振東教授創建的的知網-中文信息結構庫 怎麼使用
下載什麼 我可以幫你下載
這個事有ip限制的
給你你也用不了
『柒』 短語結構規則
1. 引言
從50年代的機器翻譯和人工智慧研究算起,NLP(Natural
Language Processing,自然語言處理)已有長達半個世紀的歷史。 在
這個進程中,學術界曾提出許多重要的理論和方法,取得了豐富的成果
。筆者認為,近二十年在這一領域中堪稱里程碑式的貢獻有如下三個:
(1)復雜特徵集和合一語法;(2)語言學研究中的詞彙主義;( 3)
語料庫方法和統計語言模型。這三個成果將繼續對語言學、計算語言學
和NLP研究產生深遠影響。為了更好地理解這些成果的意義, 先介紹與
此相關的兩個事實。
2. 兩個事實
2.1 事實之一——短語結構語法不能有效地描寫自然語言
在自然語言處理中,為了識別一個輸入句子的句法結構,首先要把
句子中的詞一個一個地切分出來,然後去查詞典,給句子中的每個詞指
派一個合適的詞性(part of speech);之後再用句法規則把句子里包
含的句法成分,如名詞短語、動詞短語、小句等,逐個地識別出來。進
而判斷每個短語的句法功能,如主語、謂語、賓語等,及其語義角色,
最終得到句子的意義表示,如邏輯語義表達式。這就是一個句法分析的
全過程。
本文要提到的第一個事實是:短語結構語法(Phrase Structure
Grammar,簡稱PSG)不能有效地描寫自然語言。PSG在Chomsky語言學理
論中佔有重要地位,並且在自然語言的句法描寫中擔當舉足輕重的角色
。但是它有一些根本性的弱點,主要表現為,它使用的是像詞類和短語
類那樣的單一標記,因而不能有效地指明和解釋自然語言中的結構歧義
問題。請看漢語中「V+N」組合。假如我們把「打擊、委託、調查」等
詞指派為動詞(V);把「力度、方式、盜版、 甲方」等詞視為名詞(
N),並同意「打擊力度」、「委託方式」是名詞短語(NP), 「打擊
盜版」、「委託甲方」是動詞短語(VP),那麼就會產生如下兩條有歧
義的句法規則:
(1)NP→VN
(2)VP→VN
換句話講,當計算機觀察到文本中相鄰出現的「V+N」詞類序列時,仍
不能確定它們組成的究竟是NP還是VP。我們把這樣的歧義叫做「短語類
型歧義」。例如:
·該公司正在招聘〔銷售V人員N〕NP。
·地球在不斷〔改變V形狀N〕VP。
下面再來看「N+V」的組合,也同樣會產生帶有短語類型歧義的規
則對,如:
(3)NP→NV 例:市場調查;政治影響。
(4)S→NV 例:價格攀升;局勢穩定。
其中標記S代表小句。
不僅如此,有時當機器觀察到相鄰出現的「N+V」詞類序列時,甚
至不能判斷它們是不是在同一個短語中。也就是說,「N+V」詞類序列
可能組成名詞短語NP或小句S,也有可能根本就不在同一個短語里。 後
面這種歧義稱為「短語邊界歧義」。下面是兩個相關的例句:
·中國的〔鐵路N建設V〕NP發展很快。
·〔中國的鐵路N〕NP建設V得很快。
前一個例句中,「鐵路 建設」組成一個NP;而在後一個例句中,這兩
個相鄰的詞卻分屬於兩個不同的短語。 這足以說明, 基於單一標記的
PSG不能充分地描述自然語言中的句法歧義現象。 下面再看一些這樣的
例子。
(5)NP→V N1 de N2
(6)VP→V N1 de N2
其中de代表結構助詞「的」。例如,「〔削 蘋果〕VP的刀」是NP;而
「削〔蘋果 的 皮〕NP」則是VP。這里既有短語類型歧義,又有短語
邊界歧義。比如,「削V蘋果N」這兩個相鄰的詞,可能構成一個
VP,也可能分處於兩個相鄰的短語中。
(7)NP→P N1 de N2
(8)PP→P N1 de N2
規則中P和PP分別表示介詞和介詞短語。例如,「〔對 上海〕PP 的印
象」是NP;而「對〔上海的 學生〕NP」則是PP。相鄰詞「對P上海N」
可能組成一個PP,也可能分處於兩個短語中。
(9)NP→NumP N1 de N2
其中NumP表示數量短語。規則(9)雖然表示的是一個NP, 但可分別代
表兩種結構意義:
(9a)NumP〔N1 de N2〕NP 如:五個〔公司的職員〕NP
(9b)〔NumP N1〕NP de N2 如:〔五個公司〕NP的職員
(10)NP→N1 N2 N3
規則(10)表示的也是一個NP,但「N1+N2」先結合,還是「N2+N3」
先結合,會出現兩種不同的結構方式和意義,即:
(10a)〔N1 N2〕NP N3 如:〔現代 漢語〕NP詞典
(10b)N1〔N2 N3〕NP 如:新版〔漢語詞典〕NP
以上討論的第一個事實說明:
·由於約束力不夠,單一標記的PSG 規則不能充分消解短語類型和
短語邊界的歧義。用數學的語言講,PSG規則是必要的, 卻不是充分的
。因此,機器僅僅根據規則右邊的一個詞類序列來判斷它是不是一個短
語,或者是什麼短語,都有某種不確定性。
·採用復雜特徵集和詞彙主義方法來重建自然語言的語法系統,是
近二十年來全球語言學界對此作出的最重要的努力。
2.2 事實之二——短語結構規則的覆蓋有限
通過大規模語料的調查,人們發現一種語言的短語規則的分布符合
齊夫率(Zipf's Law)。Zipf是一個統計學家和語言學家。他提出,如
果對某個語言單位(不論是字母還是詞)進行統計,把這個語言單位在
一個語料庫里出現的頻度(frequency)記作F,而且根據頻度的降序對
每個單元指派一個整數的階次(rank)R。結果發現R和F 的乘積近似為
一個常數。即
F[*]R≈const(常數)
或者說,被觀察的語言單元的階次R與其頻度F成反比關系。在詞頻的統
計方面,齊夫律顯示,不管被考察的語料僅僅是一本長篇小說,還是一
個大規模的語料庫,最常出現的100 個詞的出現次數就會佔到語料庫總
詞次數(tokens)的近一半。假如語料庫的規模是100萬詞次, 那麼其
中頻度最高的100個詞的累計出現次數大概是50萬詞次。 如果整個語料
庫含有5萬詞型(types),那麼其中的一半(也就是2.5 萬條左右)在
該語料庫中只出現過一次。即使把語料庫的規模加大十倍,變成1000萬
詞次,統計規律大體不變。
有趣的是,80年代Sampson對英語語料庫中的PSG規則進行統計,發
現它們的分布同樣是扭曲的,大體表現為齊夫率(Aarts et al. 1990)
。也就是說,一方面經常遇到的語法規則只有幾十條左右,它們的出現
頻度極高;另一方面,規則庫中大約一半左右的規則在語料庫中只出現
過一次。隨著語料庫規模的擴大,新的規則仍不斷呈現。Chomsky 曾提
出過這樣的假設,認為對一種自然語言來說,其語法規則的數目是有限
的,而據此生成的句子數目是無限的。但語料庫調查的結果不是這樣。
這個發現至少說明,單純依靠語言學家的語感來編寫語法規則不可能勝
任大規模真實文本處理的需求,我們必須尋找可以從語料庫中直接獲取
大規模語言知識的新方法。
幾十年來,NLP學界發表過大量燦爛成果,有詞法學、語法學、 語
義學的,有句法分析演算法的,還有許多著名的自然語言應用系統。而對
該領域影響最大的、里程碑式的成果應數下面三個。
3. 三個里程碑
3.1 里程碑之一:復雜特徵集
復雜特徵集(complex feature set)又叫多重屬性(multiple
features)描寫。在語言學里,這種描寫方法最早出現在語音學中,後
來被Chomsky學派採用來擴展PSG的描寫能力。現在無論是在語言學界還
是計算語言學界,幾乎所有語法系統在詞彙層的描寫中均採用復雜特徵
集,並利用這些屬性來強化句法規則的約束力。一個復雜特徵集F 包含
任意多個特徵名f[,i]和特徵值v[,i]對。其形式如:
F={…,fi=vi,…},i=1,…,n
特徵值v[,i]既可以是一個簡單的數字或符號, 也可以是另外一個復雜
特徵集。這種遞歸式的定義使復雜特徵集獲得了強大的表現能力。如北
京大學俞士汶等(1998)開發的《現代漢語語法信息詞典詳解》,對一
個動詞界定了約40項屬性描寫,對一個名詞界定了約27項屬性描寫。
一條含有詞彙和短語屬性約束的句法規則具有如下的一般形式:
〈PSG規則〉:〈屬性約束〉
:〈屬性傳遞〉
一般來說,PSG 規則包括右部(條件:符號序列的匹配模式)和左部(
動作:短語歸並結果)。詞語的「屬性約束」直接來自系統的詞庫,而
短語的「屬性約束」則是在自底向上的短語歸並過程中從其構成成分的
中心語(head)那裡繼承過來的。在Chomsky的理論中這叫做X-bar 理
論。X-bar代表某個詞類X所構成的、仍具有該詞類屬性的一個成分。
如果X=N,就是一個具有名詞特性的N-bar。當一條PSG 規則的右部匹
配成功,且「屬性約束」部分得到滿足,這條規則才能被執行。此時,
規則左部所命名的短語被生成,該短語的復雜特徵集通過「屬性傳遞」
部分動態生成。
20世紀80年代末、90年代初學術界提出了一系列新的語法,如廣義
短語結構語法(GPSG)、中心語驅動的短語結構語法(HPSG)、詞彙功
能語法(LFG)等等。 這些形式語法其實都是在詞彙和短語的復雜特徵
集描寫背景下產生的。合一(unification )演算法則是針對復雜特徵集
的運算而提出來的。「合一」是實現屬性匹配和賦值的一種演算法,所以
上述這些新語法又統稱為「基於合一的語法」。
3.2 里程碑之二:詞彙主義
在NLP領域中,第二個里程碑式的貢獻叫詞彙主義(lexicalism )
。語言學家Hudson(1991)曾宣稱詞彙主義是當今語言學理論發展的頭
號傾向。其出現原因也同前面所觀察的兩個事實有關。詞彙主義方法不
僅提出了一種顆粒度更細的語言知識表示形式,而且體現了一種語言知
識遞增式開發和積累的新思路。
這里首先要解釋一下這樣一個矛盾。一方面,語言學界一向認為,
不劃分詞類就無法講語法,如前面介紹的短語結構語法。也就是說,語
法「不可能」根據個別的詞來寫規則。但是另一方面,人們近來又注意
到,任何歸類都會丟失個體的某些重要信息。所以從前文提到的第一個
事實出發,要想強化語法約束能力,詞彙的描寫應當深入到比詞類更細
微的詞語本身上來。換句話講,語言學呼喚在詞彙層採用顆粒度更小的
描寫單元。從本質上來說,詞彙主義傾向反映了語言描寫的主體已經從
句法層轉移到詞彙層;這也就是所謂的「小語法,大詞庫」的思想。下
面我們來看與詞彙主義有關的一些工作。
3.2.1 詞彙語法(Lexicon-grammar)
法國巴黎大學Gross教授在20世紀60 年代就創立了一個研究中心叫
LADL,並提出詞彙語法的概念(http://www. ladl. jussieu. fr/)。
·把12,000個主要動詞分成50個子類。
·每個動詞都有一個特定的論元集。
·每一類動詞都有一個特定的矩陣,其中每個動詞都用400 個不同
句式來逐一描寫(「+」代表可進入該句式;「-」表示不能)。
·已開發英、法、德、西等歐洲語言的大規模描寫。
·INTEX是一個適用於大規模語料分析的工具, 已先後被世界上五
十多個研究中心採用。
3.2.2 框架語義學(Frame Semantics)
Fillmore是格語法(Case Grammar)的創始人,他前幾年主持了美
國自然科學基金的一個名為框架語義學的項目(http://www. icsi.
berkeley. e/framenet)。該項目從WordNet上選取了2000個動詞,從
中得到75個語義框架。例如動詞「categorize」的框架被定義為:
一個人(Cognizer)把某個對象(Item)視為某個類(Category)。
同原先的格框架相比, 原來一般化的動作主體被具體化為認知者
Cognizer,動作客體被具體化為事物Item,並根據特定體動詞的性質增
加了一個作為分類結果的語義角色Category。
項目組還從英國國家語料庫中挑出相關句子50,000個, 通過人工
給每個句子標注了相應的語義角色。例如:
Kim categorized the book as fiction.
(Cog) (Itm) (Cat)
3.2.3 WordNet
WordNet是一個描寫英語詞彙層語義關系的詞庫,1990 年由普林斯
頓大學Miller開發(http://www.cogsci. princeton. e:80/~wn/),
到現在已有很多個版本,全部公布在網際網路上,供研究人員自由下載。
歐洲有一個Euro-WordNet,以類似的格式來表現各種歐洲語言的詞彙層
語義關系。WordNet刻意描寫的是詞語之間的各種語義關系, 如同義關
系(synonymy)、反義關系(antonymy)、上下義關系(hyponymy),
部分一整體關系(part-of)等等。 這種詞彙語義學又叫做關系語義學
。這一學派同傳統的語義場理論和語義屬性描寫理論相比,其最大的優
勢在於第一次在一種語言的整個詞彙表上實現了詞彙層的語義描寫。這
是其他學派從來沒有做到的。其它理論迄今僅僅停留在教科書或某些學
術論文中,從來沒有得到工程規模的應用。下面是WordNet的概況:
·95,600條實詞詞型(動詞、名詞、形容詞)
·被劃分成70,100個同義詞集(synsets)
3.2.4 知網(How-Net)
知網是董振東和董強(1997)設計的一個漢語語義知識網(http:
//www.keenage. com)。
·自下而上地依據概念對漢語實詞進行了窮盡的分類。
·15,000個動詞被劃分成810類。
·定義了300個名詞類,100個形容詞類。
·全部概念用400個語義元語來定義。
知網的特點是既有WordNet 所描寫的同一類詞之間的語義關系(如
:同義、反義、上下義、部分-整體等),又描寫了不同類詞之間的論
旨關系和語義角色。
3.2.5 MindNet
MindNet是微軟研究院NLP組設計的(http://research. microsoft.
com/nlp/)。其設計思想是試圖用三元組(triple )作為全部知識的
表示基元。一個三元組由兩個節點和一條連接邊組成。每個節點代表一
個概念,連接這兩個概念節點的邊表示概念之間的語義依存關系。全部
三元組通過句法分析器自動獲取。具體來說,就是通過對兩部英語詞典
(Longman Dictionary of Contemporary English和American Heritage
Dictionary)及一部網路全書(Encarta)中的全部句子進行分析, 獲
得每個句子的邏輯語義表示(logical form,簡稱LF)。而LF本來就是
由三元組構成的,如(W1,V-Obj,W2)表示:W1是一個動詞, W2是其
賓語中的中心詞,因此W2從屬於W1,它們之間的關系是V-Obj。 比如(
play,V-Obj,basketball)便是一個具體的三元組。又如(W1,H-Mod
,W2),W1代表一個偏正短語中的中心詞(head word),W2 是其修飾
語(modifier),因此W2從屬於W1,它們之間的關系是H-Mod。
這種資源完全是自動做出來的,所得的三元組不可能沒有錯誤。但
是那些出現頻度很高的三元組一般來說是正確的。MindNet 已經應用到
語法檢查、句法結構排歧、詞義排歧、機器翻譯等許多場合。
3.3 里程碑之三:統計語言模型
第三個貢獻就是語料庫方法,或者叫做統計語言模型。如果用變數
W 代表一個文本中順序排列的n個詞,即W=w[,1]w[,2]…w[,n], 則統
計語言模型的任務是給出任意一個詞序列W在文本中出現的概率P(W )
。利用概率的乘積公式,P(W)可展開為:
P(W)=P(w[,1])P(w[,2]│w[,1])P(w[,3]│w[,1]w[,2]).
..P(w[,n]│w[,1]w[,2]…w[,n-1]) (1)
式中P(w[,1])表示第一個詞w[,1]的出現概率,P(w[,2]│w[,1])表
示在w[,1]出現的情況下第二個詞w[,2]出現的條件概率,依此類推。不
難看出,為了預測詞w[,n]的出現概率, 必須已知它前面所有詞的出現
概率。從計算上來看,這太復雜了。如果近似認為任意一個詞w[,i] 的
出現概率只同它緊鄰的前一個詞有關,那麼計算就得以大大簡化。這就
是所謂的二元模型(bigram),由(1)式得:
P(W)≈P(w[,1])Ⅱ[,i=2,…,n]P(w[,i]│w[,i-1]) (2)
式中Ⅱ[,i=2,…,n]P(w[,i]│w[,i-1])表示多個概率的連乘。
需要著重指出的是:這些概率參數都可以通過大規模語料庫來估值
。比如二元概率
P(w[,i]│w[,i-1])≈count(w[,i-1]w[,i])/count(w[,i- 1
]) (3)
式中count(…)表示一個特定詞序列在整個語料庫中出現的累計次數。
若語料庫的總詞次數為N, 則任意詞w[,i]在該語料庫中的出現概率可估
計如下:
P(w[,1])≈count(w[,i])/N
同理,如果近似認為任意詞w[,i]的出現只同它緊鄰的前兩個詞有關,
就得到一個三元模型(trigram):
P(W)≈P(w[,1])P(w[,2]│w[,1])Ⅱ[,i=3,…,n]P(w[,i]
│w[,i-2]w[,-1]) (5)
統計語言模型的方法有點像天氣預報。用來估計概率參數的大規模
語料庫好比是一個地區歷年積累起來的氣象記錄,而用三元模型來做天
氣預報,就像是根據前兩天的天氣情況來預測當天的天氣。天氣預報當
然不可能百分之百正確。這也算是概率統計方法的一個特點。
3.3.1 語音識別
語音識別作為計算機漢字鍵盤輸入的一種替代方式,越來越受到信
息界人士的青睞。所謂聽寫機就是這樣的商品。據報道,中國的移動電
話用戶已超過一億,隨著行動電話和個人數字助理(PDA)的普及, 尤
其是當這些隨身攜帶的器件都可以無線上網的時候,廣大用戶更迫切期
望通過語音識別或手寫板而不是小鍵盤來輸入簡短的文字信息。
其實,語音識別任務可視為計算以下條件概率的極大值問題:
W[*]=argmax[,W]P(W│speech signal)
=argmax[,W]P(speech signal│W)P(W)/
P(speech signal)
=argmax[,W]P(speech signal│W)P(W) (6)
式中數學符號argmax[,w]表示對不同的候選詞序列W計算條件概率P (W
│speech signal)的值,從而使W[*] 成為其中條件概率值最大的那個
詞序列,這也就是計算機選定的識別結果。換句話講,通過式(6 )的
計算,計算機找到了最適合當前輸入語音信號speech signal的詞串W[
*]。
式(6)第二行是利用貝葉斯定律轉寫的結果,因為條件概率P (
speech signal│W)比較容易估值。公式的分母P(speech signal)對
給定的語音信號是一個常數,不影響極大值的計算,故可以從公式中刪
除。在第三行所示的結果中,P(W)就是前面所講的統計語言模型,一
般採用式(5)所示的三元模型;P(speech signal│W)叫做聲學模型
。
到此,讀者可能已經明白,漢語拼音輸入法中的拼音—漢字轉換任
務其實也是用同樣方法實現的,而且兩者所用的漢語語言模型(即二元
或三元模型)是同一個模型。
目前市場上的聽寫機產品和微軟拼音輸入法(3.0 版)都是用詞的
三元模型實現的,幾乎完全不用句法—語義分析手段。因為據可比的評
測結果,用三元模型實現的拼音-漢字轉換系統,其出錯率比其它產品
減少約50%。
3.3.2 詞性標注
一個詞庫中大約14%的詞型具有不止一個詞性。而在一個語料庫中
,占總詞次數約30%的詞具有不止一個詞性。所以對一個文本中的每一
個詞進行詞性標注,就是通過上下文的約束,實現詞性歧義的消解。歷
史上曾經先後出現過兩個自動詞性標注系統。一個採用上下文相關的規
則,叫做TAGGIT(1971),另一個應用詞類的二元模型,叫做CLAWS (
1987)(見Garside et al.1989)。兩個系統都分別對100 萬詞次的英
語非受限文本實施了詞性標注。結果顯示, 採用統計語言模型的CLAWS
系統的標注正確率大大高於基於規則方法的TAGGIT系統。請看下錶的對
比:
系統名 TAGGIT(1971) CLAWS(1987)標記數 86 133方法 3000條CSG規則 隱馬爾科夫模型標注精度 77% 96%測試語料 布朗 LOB
令C和W分別代表詞類標記序列和詞序列,則詞性標注問題可視為計
算以下條件概率的極大值:
C[*]=argmax[,C]P(C│W)
=argmax[,C]P(W│C)P(C)/P(W)
≈argmax[,C]Ⅱ[,i=1,…,n]P(w[,i]│c[,i])P(c[,i]│c[,i
-1]) (7)
式中P(C│W)是已知輸入詞序列W的情況下,出現詞類標記序列C 的條
件概率。數學符號argmax[,C] 表示通過考察不同的候選詞類標記序列C
,來尋找使條件概率取最大值的那個詞類標記序列C[*]。後者應當就是
對W的詞性標注結果。
公式第二行是利用貝葉斯定律轉寫的結果,由於分母P(W)對給定
的W是一個常數,不影響極大值的計算,可以從公式中刪除。 接著對公
式進行近似分析。首先,引入獨立性假設,認為任意一個詞w[,i] 的出
現概率近似只同當前詞的詞類標記c[,i]有關, 而與周圍(上下文)的
詞類標記無關。於是詞彙概率可計算如下:
P(W│C)≈Ⅱ[,i=1,…,n]P(w[,i]│c[,i]) (8)
其次,採用二元假設,即近似認為任意一個詞類標記c[,i] 的出現概率
只同它緊鄰的前一個詞類標記c[,i-1]有關。則
P(C)≈P(c[,1])Ⅱ[,i=2,…,n]P(c[,i]│c[,i-1]) (9)
P(c[,i]│c[,i-1])是詞類標記的轉移概率, 也叫做基於詞類的二元
模型。
上述這兩個概率參數都可以通過帶詞性標記的語料庫來分別估計:
P(w[,i]│c[,i])≈count(w[,i],c[,i])/count(c[,i]) (
10)
P(c[,i]│c[,i-1])≈count(c[,i-1]c[,i])/count(c[,i-1]
) (11)
據文獻報道,採用統計語言模型方法,漢語和英語的詞性標注正確
率都可以達到96%左右(白拴虎1992)。
3.3.3 介詞短語PP的依附歧義
在英語中,介詞短語究竟依附於前面的名詞還是前面的動詞,是句
法分析中一種常見的結構歧義問題。下例表明怎樣用語料庫方法解決這
個問題,以及這種方法究竟能達到多高的正確率。
例句:Pierre Vinken, 61 years old, joined the board as a
nonexecutive director.
令A=1表示名詞依附,A=0為動詞依附,則上述例句的PP依附問題可表
為:
(A=0,V=joined,N1=board,P=as,N2=director)
令V,N1,N2分別代表句中動詞短語、賓語短語、介賓短語的中心詞,
並在一個帶有句法標注的語料庫(又稱樹庫)中統計如下四元組的概率
P[,r]:
P[,r]=(A=1│V=v,N1=n1,P=p,N2=n2) (10)
對輸入句子進行PP依附判斷的演算法如下:
若P[,r]=(1│v,n1,p,n2)≥0.5,
則判定PP依附於n1,
否則判定PP依附於v。
Collins & Brooks(1995)實驗使用的語料庫是賓夕法尼亞大學標注的
《華爾街日報》(WSJ)樹庫,其中包括:訓練集20,801個四元組,測
試集3,097個四元組。他們對PP依附自動判定精度的上下限作了如下分
析:
一律視為名詞依附(即A≡1) 59.0%
只考慮介詞p的最常見依附 72.2%
三位專家只根據四個中心詞判斷 88.2%
三位專家根據全句判斷 93.2%
很明顯,自動判斷精確率的下限是72.2%,因為機器不會比只考慮句中
介詞p的最常見依附做得更差;上限是88.2%, 因為機器不可能比三位
專家根據四個中心詞作出的判斷更高明。
論文報告,在被測試的3,097個四元組中,系統正確判斷的四元組
為2,606個,因此平均精確率為84.1%。這與上面提到的上限值88.2%
相比,應該說是相當不錯的結果。
4. 結論
語言學家的努力,不論是用復雜特徵集和合一語法,還是詞彙主義
方法,都是在原先所謂的理性主義框架下作出的重大貢獻。詞彙主義方
法特別值得推崇,因為它不僅提出了一種顆粒度更細的語言知識表示形
式,而且體現了一種語言知識遞增式開發和積累的新思路。尤其值得重
視的是在眾多詞彙資源的開發過程中,語料庫和統計學方法發揮了很大
的作用。這也是經驗主義方法和理性主義方法相互融合的可喜開端。筆
者相信,語料庫方法和統計語言模型是當前自然語言處理技術的主流,
它們的實用價值已在很多應用系統中得到證實。統計語言模型的研究,
尤其在結構化對象的統計建模方面,仍有廣闊的發展空間。
【參考文獻】:
Aarts, Jan & Willen Meijs (eds.). 1990. Corpus Linguistics:
Theory and Practice〔C〕. Amsterdam: Rodopi.
Collins, M. and J. Brooks. 1995. Preposition phrase
attachment through a backed-off model〔P〕. In Proceedings of the
3rd Workshop of Very Large Corpora. Cambridge, Mass.
Garside, R., G. Leech and G. Sampson, (eds.). 1989. The
Computational Analysis of English: A Corpus-Based Approach〔C〕.
London: Longman.
Hudson, R. A. 1991. English Word Grammar〔M〕. Cambridge,
Mass.: Basil Blackwell.
白拴虎,1992,漢語詞性自動標注系統研究〔MA〕。清華大學計算
機科學與技術系碩士學位論文。
董振東、董強,1997,知網〔J〕。《語言文字應用》第3期。
俞士汶等,1998,《現代漢語語法信息詞典詳解》〔M〕。 北京:
清華大學出版社。
『捌』 如何度量兩個詞之間的語義相似度
如何度量句子的語義相似度,很容易想到的是向量空間模型(VSM)和編輯距離的方法,比如A:「我爸是李剛」,B:「我兒子是李剛」,利用VSM方法A(我,爸,是,李剛)B(我,兒子,是,李剛),計算兩個向量的夾角餘弦值,不贅述;編輯距離就更好說了將「爸」,「兒子」分別替換掉,D(A,B)= replace_cost;
這是兩種相當呆的方法,屬於baseline中的baseline,換兩個例子看一下就知道A:「樓房如何建造?」,B:「高爾夫球怎麼打?」,C:「房子怎麼蓋?」,如果用VSM算很明顯由於B,C中有共同的詞「怎麼」,所以BC相似度高於AC;編輯距離同理;
解決這種問題方法也不難,只要通過同義詞詞典對所有句子進行擴展,「如何」、「怎麼」,「樓房」、「房子」都是同義詞或者近義詞,擴展後再算vsm或者edit distance對這一問題即可正解。這種方法一定程度上解決了召回率低的問題,但是擴展後引入雜訊在所難免,尤其若原句中含有多義詞時。例如:「打醬油」、「打毛衣」。在漢字中有些單字詞表達了相當多的意義,在董振東先生的知網(hownet)中對這種類型漢字有很好的語義關系解釋,通過hownet中詞語到義元的樹狀結構可以對對詞語粒度的形似度進行度量。
問題到這里似乎得到了不錯的解答,但實際中遠遠不夠。VSM的方法把句子中的詞語看做相互獨立的特徵,忽略了句子序列關系、位置關系對句子語義的影響;Edit Distance考慮了句子中詞語順序關系,但是這種關系是機械的置換、移動、刪除、添加,實際中每個詞語表達了不同的信息量,同樣的詞語在不同詞語組合中包含的信息量或者說表達的語義信息大不相同。What about 句法分析,計算句法樹的相似度?這個比前兩種方法更靠譜些,因為句法樹很好的描述了詞語在句子中的地位。實際效果要待實驗證實。
對了,還有一種方法translation model,IBM在機器翻譯領域的一大創舉,需要有大量的語料庫進行訓練才能得到理想的翻譯結果。當然包括中間詞語對齊結果,如果能夠利用web資源建立一個高質量的語料庫對兩兩相似句對通過EM迭代詞語對齊,由詞語對齊生成句子相似度,這個。。想想還是不錯的方法!
『玖』 如何進行相似度的計算,主要用什麼方式
如何計算句子的語義相似度,很容易想到的是向量空間模型(VSM)和編輯距離的方法,比如A:「我爸是李剛」,B:「我兒子是李剛」,利用VSM方法A(我,爸,是,李剛)B(我,兒子,是,李剛),計算兩個向量的夾角餘弦值,不贅述;編輯距離就更好說了將「爸」,「兒子」分別替換掉,D(A,B)= replace_cost;
這是兩種相當呆的方法,屬於baseline中的baseline,換兩個例子看一下就知道A:「樓房如何建造?」,B:「高爾夫球怎麼打?」,C:「房子怎麼蓋?」,如果用VSM算很明顯由於B,C中有共同的詞「怎麼」,所以BC相似度高於AC;編輯距離同理;
解決這種問題方法也不難,只要通過同義詞詞典對所有句子進行擴展,「如何」、「怎麼」,「樓房」、「房子」都是同義詞或者近義詞,擴展後再算vsm或者edit distance對這一問題即可正解.這種方法一定程度上解決了召回率低的問題,但是擴展後引入雜訊在所難免,尤其若原句中含有多義詞時.例如:「打醬油」、「打毛衣」.在漢字中有些單字詞表達了相當多的意義,在董振東先生的知網(hownet)中對這種類型漢字有很好的語義關系解釋,通過hownet中詞語到義元的樹狀結構可以對對詞語粒度的形似度進行度量.
問題到這里似乎得到了不錯的解答,但實際中遠遠不夠.VSM的方法把句子中的詞語看做相互獨立的特徵,忽略了句子序列關系、位置關系對句子語義的影響;Edit Distance考慮了句子中詞語順序關系,但是這種關系是機械的置換、移動、刪除、添加,實際中每個詞語表達了不同的信息量,同樣的詞語在不同詞語組合中包含的信息量或者說表達的語義信息大不相同.What about 句法分析,計算句法樹的相似度?這個比前兩種方法更靠譜些,因為句法樹很好的描述了詞語在句子中的地位.實際效果要待實驗證實.
對了,還有一種方法translation model,IBM在機器翻譯領域的一大創舉,需要有大量的語料庫進行訓練才能得到理想的翻譯結果.當然包括中間詞語對齊結果,如果能夠利用web資源建立一個高質量的語料庫對兩兩相似句對通過EM迭代詞語對齊,由詞語對齊生成句子相似度,這個.想想還是不錯的方法!