自然語言處理摘要
⑴ 數據標注在自然語言處理領域有哪些具體應用
應用太多了
比如情感分析,需要你標注這篇文章是褒義還是貶義
比如分詞需要你標注這個詞,這句話是怎麼分的
比如做摘要,也需要你去標注正確的摘要,應該是哪個句子
還有翻譯
等等等等,太多了
⑵ 自然語言處理與語音識別是什麼關系
語音識別是自然語言處理的一項比較基礎的分支范疇。很多情況下,你得先讓機器知道你在說什麼,才能進一步讓機器去理解和做出特定的反應。其他分支范疇有機器翻譯、搜索、摘要、問答等等。另外不知道你說的語音是不是還包括語音合成,這也屬於自然語言處理,但是相對比語言識別簡單多了,基本上是兩碼事吧。
⑶ 自然語言處理和文本挖掘的關系
自然語言處理和文本的這種挖掘關系就是語言處理情況,需要利用文本的篩選功能。
然後文本篩選出具體的語言精髓,使用於正常的文本。
⑷ 自然語言處理和語音的關系是什麼,和機器學習又是什麼關系
語音識別是自然語言處理的一項比較基礎的分支范疇。很多情況下,你得先讓機器知道你在說什麼,才能進一步讓機器去理解和做出特定的反應。其他分支范疇有機器翻譯、搜索、摘要、問答等等。另外不知道你說的語音是不是還包括語音合成,這也屬於自然語言處理,但是相對比語言識別簡單多了,基本上是兩碼事吧。
機器學習和自然語言處理都屬於人工智慧方面的學科,不存在誰包含誰。機器學習是一種更加基礎性的東西
⑸ 自然語言處理怎麼最快入門
作者:劉知遠
鏈接:http://www.hu.com/question/19895141/answer/24710071
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。
昨天實驗室一位剛進組的同學發郵件來問我如何查找學術論文,這讓我想起自己剛讀研究生時茫然四顧的情形:看著學長們高談闊論領域動態,卻不知如何入門。經過研究生幾年的耳濡目染,現在終於能自信地知道去哪兒了解最新科研動態了。我想這可能是初學者們共通的困惑,與其只告訴一個人知道,不如將這些Folk Knowledge寫下來,來減少更多人的麻煩吧。當然,這個總結不過是一家之談,只盼有人能從中獲得一點點益處,受個人認知所限,難免掛一漏萬,還望大家海涵指正。
1. 國際學術組織、學術會議與學術論文
自然語言處理(natural language processing,NLP)在很大程度上與計算語言學(computational linguistics,CL)重合。與其他計算機學科類似,NLP/CL有一個屬於自己的最權威的國際專業學會,叫做The Association for Computational Linguistics(ACL,URL:ACL Home Page),這個協會主辦了NLP/CL領域最權威的國際會議,即ACL年會,ACL學會還會在北美和歐洲召開分年會,分別稱為NAACL和EACL。除此之外,ACL學會下設多個特殊興趣小組(special interest groups,SIGs),聚集了NLP/CL不同子領域的學者,性質類似一個大學校園的興趣社團。其中比較有名的諸如SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。這些SIGs也會召開一些國際學術會議,其中比較有名的就是SIGDAT組織的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL組織的CoNLL(Conference on Natural Language Learning)。此外還有一個International Committee on Computational Linguistics的老牌NLP/CL學術組織,它每兩年組織一個稱為International Conference on Computational Linguistics (COLING)的國際會議,也是NLP/CL的重要學術會議。NLP/CL的主要學術論文就分布在這些會議上。
作為NLP/CL領域的學者最大的幸福在於,ACL學會網站建立了稱作ACL Anthology的頁面(URL:ACL Anthology),支持該領域絕大部分國際學術會議論文的免費下載,甚至包含了其他組織主辦的學術會議,例如COLING、IJCNLP等,並支持基於Google的全文檢索功能,可謂一站在手,NLP論文我有。由於這個論文集合非常龐大,並且可以開放獲取,很多學者也基於它開展研究,提供了更豐富的檢索支持,具體入口可以參考ACL Anthology頁面上方搜索框右側的不同檢索按鈕。
與大部分計算機學科類似,由於技術發展迅速,NLP/CL領域更重視發表學術會議論文,原因是發表周期短,並可以通過會議進行交流。當然NLP/CL也有自己的旗艦學術期刊,發表過很多經典學術論文,那就是Computational Linguistics(URL:MIT Press Journals)。該期刊每期只有幾篇文章,平均質量高於會議論文,時間允許的話值得及時追蹤。此外,ACL學會為了提高學術影響力,也剛剛創辦了Transactions of ACL(TACL,URL:Transactions of the Association for Computational Linguistics (ISSN: 2307-387X)),值得關注。值得一提的是這兩份期刊也都是開放獲取的。此外也有一些與NLP/CL有關的期刊,如ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。
根據Google Scholar Metrics 2013年對NLP/CL學術期刊和會議的評價,ACL、EMNLP、NAACL、COLING、LREC、Computational Linguistics位於前5位,基本反映了本領域學者的關注程度。
NLP/CL作為交叉學科,其相關領域也值得關注。主要包括以下幾個方面:(1)信息檢索和數據挖掘領域。相關學術會議主要由美國計算機學會(ACM)主辦,包括SIGIR、WWW、WSDM等;(2)人工智慧領域。相關學術會議主要包括AAAI和IJCAI等,相關學術期刊主要包括Artificial Intelligence和Journal of AI Research;(3)機器學習領域,相關學術會議主要包括ICML,NIPS,AISTATS,UAI等,相關學術期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。例如最近興起的knowledge graph研究論文,就有相當一部分發表在人工智慧和信息檢索領域的會議和期刊上。實際上國內計算機學會(CCF)制定了「中國計算機學會推薦國際學術會議和期刊目錄」(CCF推薦排名),通過這個列表,可以迅速了解每個領域的主要期刊與學術會議。
最後,值得一提的是,美國Hal Daumé III維護了一個natural language processing的博客(natural language processing blog),經常評論最新學術動態,值得關注。我經常看他關於ACL、NAACL等學術會議的參會感想和對論文的點評,很有啟發。另外,ACL學會維護了一個Wiki頁面(ACL Wiki),包含了大量NLP/CL的相關信息,如著名研究機構、歷屆會議錄用率,等等,都是居家必備之良品,值得深挖。
2. 國內學術組織、學術會議與學術論文
與國際上相似,國內也有一個與NLP/CL相關的學會,叫做中國中文信息學會(URL:中國中文信息學會)。通過學會的理事名單(中國中文信息學會)基本可以了解國內從事NLP/CL的主要單位和學者。學會每年組織很多學術會議,例如全國計算語言學學術會議(CCL)、全國青年計算語言學研討會(YCCL)、全國信息檢索學術會議(CCIR)、全國機器翻譯研討會(CWMT),等等,是國內NLP/CL學者進行學術交流的重要平台。尤其值得一提的是,全國青年計算語言學研討會是專門面向國內NLP/CL研究生的學術會議,從組織到審稿都由該領域研究生擔任,非常有特色,也是NLP/CL同學們學術交流、快速成長的好去處。值得一提的是,2010年在北京召開的COLING以及2015年即將在北京召開的ACL,學會都是主要承辦者,這也一定程度上反映了學會在國內NLP/CL領域的重要地位。此外,計算機學會中文信息技術專委會組織的自然語言處理與中文計算會議(NLP&CC)也是最近崛起的重要學術會議。中文信息學會主編了一份歷史悠久的《中文信息學報》,是國內該領域的重要學術期刊,發表過很多篇重量級論文。此外,國內著名的《計算機學報》、《軟體學報》等期刊上也經常有NLP/CL論文發表,值得關注。
過去幾年,在水木社區BBS上開設的AI、NLP版面曾經是國內NLP/CL領域在線交流討論的重要平台。這幾年隨著社會媒體的發展,越來越多學者轉戰新浪微博,有濃厚的交流氛圍。如何找到這些學者呢,一個簡單的方法就是在新浪微博搜索的「找人」功能中檢索「自然語言處理」、 「計算語言學」、「信息檢索」、「機器學習」等字樣,馬上就能跟過去只在論文中看到名字的老師同學們近距離交流了。還有一種辦法,清華大學梁斌開發的「微博尋人」系統(清華大學信息檢索組)可以檢索每個領域的有影響力人士,因此也可以用來尋找NLP/CL領域的重要學者。值得一提的是,很多在國外任教的老師和求學的同學也活躍在新浪微博上,例如王威廉(Sina Visitor System)、李沐(Sina Visitor System)等,經常爆料業內新聞,值得關注。還有,國內NLP/CL的著名博客是52nlp(我愛自然語言處理),影響力比較大。總之,學術研究既需要苦練內功,也需要與人交流。所謂言者無意、聽者有心,也許其他人的一句話就能點醒你苦思良久的問題。無疑,博客微博等提供了很好的交流平台,當然也注意不要沉迷哦。
3. 如何快速了解某個領域研究進展
最後簡單說一下快速了解某領域研究進展的經驗。你會發現,搜索引擎是查閱文獻的重要工具,尤其是谷歌提供的Google Scholar,由於其龐大的索引量,將是我們披荊斬棘的利器。
當需要了解某個領域,如果能找到一篇該領域的最新研究綜述,就省勁多了。最方便的方法還是在Google Scholar中搜索「領域名稱 + survey / review / tutorial / 綜述」來查找。也有一些出版社專門出版各領域的綜述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它們發表了很多熱門方向的綜述,如文檔摘要、情感分析和意見挖掘、學習排序、語言模型等。
如果方向太新還沒有相關綜述,一般還可以查找該方向發表的最新論文,閱讀它們的「相關工作」章節,順著列出的參考文獻,就基本能夠了解相關研究脈絡了。當然,還有很多其他辦法,例如去http://videolectures.net上看著名學者在各大學術會議或暑期學校上做的tutorial報告,去直接咨詢這個領域的研究者,等等。
⑹ 自然語言處理的發展歷史
最早的自然語言理解方面的研究工作是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設計方案。20世紀60年代,國外對機器翻譯曾有大規模的研究工作,耗費了巨額費用,但人們當時顯然是低估了自然語言的復雜性,語言處理的理論和技術均不成熱,所以進展不大。主要的做法是存儲兩種語言的單詞、短語對應譯法的大辭典,翻譯時一一對應,技術上只是調整語言的同條順序。但日常生活中語言的翻譯遠不是如此簡單,很多時候還要參考某句話前後的意思。
大約90年代開始,自然語言處理領域發生了巨大的變化。這種變化的兩個明顯的特徵是:
(1)對系統輸入,要求研製的自然語言處理系統能處理大規模的真實文本,而不是如以前的研究性系統那樣,只能處理很少的詞條和典型句子。只有這樣,研製的系統才有真正的實用價值。
(2)對系統的輸出,鑒於真實地理解自然語言是十分困難的,對系統並不要求能對自然語言文本進行深層的理解,但要能從中抽取有用的信息。例如,對自然語言文本進行自動地提取索引詞,過濾,檢索,自動提取重要信息,進行自動摘要等等。
同時,由於強調了「大規模」,強調了「真實文本」,下面兩方面的基礎性工作也得到了重視和加強。
(1)大規模真實語料庫的研製。大規模的經過不同深度加工的真實文本的語料庫,是研究自然語言統計性質的基礎。沒有它們,統計方法只能是無源之水。
(2)大規模、信息豐富的詞典的編制工作。規模為幾萬,十幾萬,甚至幾十萬詞,含有豐富的信息(如包含詞的搭配信息)的計算機可用詞典對自然語言處理的重要性是很明顯的。
⑺ 什麼自然語言處理
以下為自然語言所能夠做到的。
1. 全文精準檢索
支持文本、數字、日期、字元串等各種數據類型,多欄位的高效搜索,支持AND/OR/NOT
以及NEAR 鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語
言的檢索。可以無縫地與現有文本處理系統與資料庫系統融合。
2. 新詞發現:
從文件集合中挖掘出內涵的新詞語列表,可以用於用戶專業詞典的編撰;還可以進一
步編輯標注,導入分詞詞典中,從而提高分詞系統的准確度,並適應新的語言變化。
3. 分詞標註:
對原始語料進行分詞、自動識別人名地名機構名等未登錄詞、新詞標注以及詞性標注。
並可在分析過程中,導入用戶定義的詞典。
4. 統計分析與術語翻譯
針對切分標注結果,系統可以自動地進行一元詞頻統計、二元詞語轉移概率統計(統
計兩個詞左右連接的頻次即概率)。針對常用的術語,會自動給出相應的英文解釋。
5. 文本聚類及熱點分析
能夠從大規模數據中自動分析出熱點事件,並提供事件話題的關鍵特徵描述。同時適
用於長文本和簡訊、微博等短文本的熱點分析。
6. 分類過濾
針對事先指定的規則和示例樣本,系統自動從海量文檔中篩選出符合需求的樣本。
7. 自動摘要
能夠對單篇或多篇文章,自動提煉出內容的精華,方便用戶快速瀏覽文本內容。
8. 關鍵詞提取
能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的詞彙或短語,可用於
精化閱讀、語義查詢和快速匹配等。
9. 文檔去重
能夠快速准確地判斷文件集合或資料庫中是否存在相同或相似內容的記錄,同時找出
所有的重復記錄。
10. HTML 正文提取
自動剔除導航性質的網頁,剔除網頁中的HTML 標簽和導航、廣告等干擾性文字,返
回有價值的正文內容。適用於大規模互聯網信息的預處理和分析。
⑻ python有哪些提取文本摘要的庫
1.google goose
>>>fromgooseimportGoose
>>>url='http://edition.cnn.com/2012/02/22/world/europe/uk-occupy-london/index.html?hpt=ieu_c2'
>>>g=Goose()
>>>article=g.extract(url=url)
>>>article.title
u''
>>>article.meta_description
".Paul'yinadecisionmadebyLondon'sCourtofAppeal."
>>>article.cleaned_text[:150]
(CNN)--.Paul'
>>>article.top_image.src
http://i2.cdn.turner.com/cnn/dam/assets/111017024308-occupy-london-st-paul-s-cathedral-story-top.jpg
2. pythonSnowNLP
fromsnownlpimportSnowNLP
s=SnowNLP(u'這個東西真心很贊')
s.words#[u'這個',u'東西',u'真心',
#u'很',u'贊']
s.tags#[(u'這個',u'r'),(u'東西',u'n'),
#(u'真心',u'd'),(u'很',u'd'),
#(u'贊',u'Vg')]
s.sentiments#0.9769663402895832positive的概率
s.pinyin#[u'zhe',u'ge',u'dong',u'xi',
#u'zhen',u'xin',u'hen',u'zan']
s=SnowNLP(u'「繁體字」「繁體中文」的叫法在台灣亦很常見。')
s.han#u'「繁體字」「繁體中文」的叫法
#在台灣亦很常見。'
text=u'''
自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向。
它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。
自然語言處理是一門融語言學、計算機科學、數學於一體的科學。
因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,
所以它與語言學的研究有著密切的聯系,但又有重要的區別。
自然語言處理並不是一般地研究自然語言,
而在於研製能有效地實現自然語言通信的計算機系統,
特別是其中的軟體系統。因而它是計算機科學的一部分。
'''
s=SnowNLP(text)
s.keywords(3)#[u'語言',u'自然',u'計算機']
s.summary(3)#[u'因而它是計算機科學的一部分',
#u'自然語言處理是一門融語言學、計算機科學、
#數學於一體的科學',
#u'自然語言處理是計算機科學領域與人工智慧
#領域中的一個重要方向']
s.sentences
s=SnowNLP([[u'這篇',u'文章'],
[u'那篇',u'論文'],
[u'這個']])
s.tf
s.idf
s.sim([u'文章'])#[0.3756070762985226,0,0]
3. pythonTextTeaser
#!/usr/bin/python
#-*-coding:utf-8-*-
#articlesource:https://blogs.dropbox.com/developers/2015/03/limitations-of-the-get-method-in-http/
title=""
text=",.Inthehopesthatithelpsothers,.Inthispost,we』ourownAPI.Asarule,..Forexample,abrowserdoesn』,,thebrowserknowsit』』sanetworkerror.ForformsthatuseHTTPPOST,.HTTP-』tmodifyserverstate.,theapp』.Thelibrarydoesn』.』tmodifyserverstate,butunfortunatelythisisn』talwayspossible.GETrequestsdon』thavearequestbody,.WhiletheHTTPstandarddoesn』,.Thisisrarelyaproblem,/deltaAPIcall.Thoughitdoesn』tmodifyserverstate,.Theproblemisthat,inHTTP,estbody.Wecouldhavesomehowcontorted/,,likeperformance,simplicity,anddeveloperergonomics.Intheend,wedecidedthebenefitsofmaking/deltamoreHTTP-likeweren』.case,soit』snosurprisethatitdoesn』tfiteveryAPIperfectly.Maybeweshouldn』tletHTTP』.Forexample,independentofHTTP,.Then,』tmodifyserverstateanddon』thavelargeparameters,.Thisway,we』."
tt=TextTeaser()
sentences=tt.summarize(title,text)
forsentenceinsentences:
printsentence
4. pythonsumy
#-*-coding:utf8-*-
from__future__importabsolute_import
from__future__importdivision,print_function,unicode_literals
fromsumy.parsers.htmlimportHtmlParser
fromsumy.parsers.
fromsumy.nlp.tokenizersimportTokenizer
fromsumy.summarizers.
fromsumy.nlp.stemmersimportStemmer
fromsumy.utilsimportget_stop_words
LANGUAGE="czech"
SENTENCES_COUNT=10
if__name__=="__main__":
url="http://www.zsstritezuct.estranky.cz/clanky/predmety/cteni/jak-naucit-dite-spravne-cist.html"
parser=HtmlParser.from_url(url,Tokenizer(LANGUAGE))
#orforplaintextfiles
#parser=PlaintextParser.from_file("document.txt",Tokenizer(LANGUAGE))
stemmer=Stemmer(LANGUAGE)
summarizer=Summarizer(stemmer)
summarizer.stop_words=get_stop_words(LANGUAGE)
forsentenceinsummarizer(parser.document,SENTENCES_COUNT):
print(sentence)
⑼ 快速了解什麼是自然語言處理
摘要:
自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學等於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信的計算機系統,特別是其中的軟體系統。因而它是計算機科學的一部分。
1 計算機對自然語言處理的過程
1.1把需要研究是問題在語言上建立形式化模型,使其可以數學形式表示出來,這個過程稱之為"形式化"
1.2把數學模型表示為演算法的過程稱之為"演算法化"
1.3根據演算法,計算機進行實現,建立各種自然語言處理系統,這個過程是"程序化"
1.4對系統進行評測和改進最終滿足現實需求,這個過程是"實用化"
2 自然語言處理涉及的知識領域
語言學、計算機科學(提供模型表示、演算法設計、計算機實現)、數學(數學模型)、心理學(人類言語心理模型和理論)、哲學(提供人類思維和語言的更深層次理論)、統計學(提供樣本數據的預測統計技術)、電子工程(資訊理論基礎和語言信號處理技術)、生物學(人類言語行為機制理論)。故其為多邊緣的交叉學科
3 自然語言處理涉及的范圍
3.1語音的自動合成與識別、機器翻譯、自然語言理解、人機對話、信息檢索、文本分類、自動文摘等等,總之分為四大方向:
語言學方向
數據處理方向
人工智慧和認知科學方向
語言工程方向
3.2也可細分為13個方面
口語輸入:語音識別、信號表示、魯棒的語音識別、語音識別中的隱馬爾科夫模型方法、語言模型、說話人識別、口語理解
書面語輸入:文獻格式識別、光學字元識別(OCR):印刷體識別/手寫體識別、手寫界面、手寫文字分析
語言分析理解:小於句子單位的處理、語法的形式化、針對基於約束的語法編寫的詞表、計算語義學、句子建模和剖析技術、魯棒的剖析技術
語言生成:句法生成、深層生成
口語輸入技術:合成語音技術、語音合成的文本解釋、口語生成
話語分析與對話:對話建模、話語建模口語對話系統
文獻自動處理:文獻檢索、文本解釋:信息抽取、文本內容自動歸納、文本寫作和編輯的計算機支持、工業和企業中使用的受限語言
多語問題的計算機處理:機器翻譯、人助機譯、機助人譯、多語言信息檢索、多語言語音識別、自動語種驗證
多模態的計算機處理:空間和時間表示方法、文本與圖像處理、口語與手勢的模態結合、口語與面部信息的模態結合:面部運動和語音識別
信息傳輸和信息存儲:語音壓縮、語音品質的提升
自然語言處理中的數學方法:統計建模和分類的數學理論、數字信號處理技術、剖析演算法的數學基礎研究、神經網路、有限狀態分析技術、語音和語言處理中的最優化技術和搜索技術
語言資源:書面語料庫、口語語料庫、機器詞典與詞網的建設、術語編撰和術語資料庫、網路數據挖掘和信息提取
自然語言處理系統的評測:面向任務的文本分析評測、機器翻譯系統和翻譯工具的評測、大覆蓋面的自然語言剖析器的評測、語音識別:評估和評測、語音合成評測、系統的可用性和界面的評測、語音通信質量的評測、文字識別系統的評測
4自然語言處理的發展的幾個特點
基於句法-語義規則的理性主義方法受到質疑,隨著語料庫建設和語料庫語言學 的崛起,大規模真實文本的處理成為自然語言處理的主要戰略目標。
自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。
統計數學方法越來越受到重視。
自然語言處理中越來越重視詞彙的作用,出現了強烈的"詞彙主義"的傾向。
最後,你了解了嗎。
⑽ nlp的自然語言處理的主要范疇
文本朗讀(Text to speech)/語音合成(Speech synthesis)
語音識別(Speech recognition)
中文自動分詞(Chinese word segmentation)
詞性標注(Part-of-speech tagging)
句法分析(Parsing)
自然語言生成(Natural language generation)
文本分類(Text categorization)
信息檢索(Information retrieval)
信息抽取(Information extraction)
文字校對(Text-proofing)
問答系統(Question answering)
機器翻譯(Machine translation)
自動摘要(Automatic summarization)
文字蘊涵(Textual entailment)