《第一讲统计自然语言处理概论2.ppt》由会员分享,可在线阅读,更多相关《第一讲统计自然语言处理概论2.ppt(85页珍藏版)》请在课桌文档上搜索。
1、统计自然语言处理与信息检索,目录,概述-NLP的概念、历史与现状NLP的研究内容NLP研究的困难NLP方法论之争统计方法示例本课的主要内容抛砖引玉,1.什么是自然语言以语音为物质外壳,由词汇和语法两部分组成的符号系统。新华词典语言是人类交际的工具,是人类思维的载体是约定俗成的,有别于人工语言(程序设计语言),一、NLP的概念,什么是自然语言处理 NLP,Natural Language Processing 用机器处理人类语言的理论和技术 研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。NLP要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断
2、完善这样的模型,并根据语言模型设计各种实用系统,以及对这些系统的评测技术。-Bill Manaris,从人机交互的角度看自然语言处理其它名称 自然语言理解(Natural Language Understanding)计算语言学(CL,Computational Linguistics)人类语言技术(Human Language Technology),从智能接口到知识处理,智能接口 功能:把现实世界中的语言信息送入电子世界 主要成果 拼音输入、手写输入、语音识别 知识处理 功能:对于已进入电子世界中的语言信息进行加工处理获得知识 主要研究内容 媒体的加工和管理、语言信息处理,机器能够理解人的
3、语言吗?,很难,但是没有证据表明不行什么是“理解”结构主义:机器的理解机制与人相同 问题在于谁也说不清自己理解语言的步骤 功能主义:机器的表现与人相同 图灵测试:如果通过自然语言的问答,一个人 无法识别和他对话的是人还是机器,那么就应 该承认机器具有智能,有用否?能用否?,NLP有用吗?据统计,日常工作中80%的信息来源于语言 文本是人类知识最大的存储源,并且文本的数量在不停地增长 电子邮件、新闻、网页、科技论文 NLP能用吗?并非每一样语言处理的应用都需要深层理解 中间产品陆续产生 成功应用的实例 word中英文自动校对 搜索引擎 Google在线翻译,2.NLP的性质,NLP需要的知识非常
4、复杂语言学、计算机科学、数学、逻辑学、认知科学等 理解语言的过程是动态的,不是静态的 NLP需要的知识大多是归纳的,不是演绎的 存在Upper Bound(上限)对歧义的限制和系统的覆盖率矛盾 领域词典不充分,3.NLP的历史,20世纪50年代起步 机器翻译 50-60年代采用模式匹配的方法 60年代衰落 70-80年代采用面向受限域的深入理解的方法 90年代至今统计方法占主流 随着互联网的发展而复苏 互联网为NLP提供了市场需求和试验数据,4.NLP现状,仍然缺乏理论基础 词汇句法方面的问题尚未解决,已开始挑战语义、知识等深层课题 语音识别中采用的统计语言模型推动了NLP的发 展,目前的统计
5、模型在向语言深层发展 Ontology受到普遍重视 开放域处理时起时落 一切才刚刚开始,二、NLP的研究内容,自然语言处理的科学内容 语言学的任务 刻画和解释语言现象 人类是如何获取和理解语言的 理解语言和世界的关系 理解语言在通讯时的结构和内在含义 人们在说些什么 覆盖语言结构的各个方面 人们说的事情和世界怎样联系在一起,2.NLP的不同层次,3.基础研究(1)词法分析 词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。词法分析是很多中文信息处理任务的必要步骤。自动分词(中文分词)词性标注短语识别,分词:中文词与词之间没有明显的分隔符,使得计算机对于词的准确识别变得非常困难。因此,
6、分词就成了中文处理中所要解决的最基本的问题,分词的性能对后续的语言处理如机器翻译、信息检索等有着至关重要的影响。随着对中文处理关注程度的增加,国际计算语言联合会(ACL)下设的汉语特别兴趣(SIGHAN)研究组每年举办国际汉语分词评测大赛。,(2)句法分析 句法分析是对句子结构进行分析,如句子的形式结构:主语、谓语、宾语等。句法分析是语言学理论和实际的自然语言应用的一个重要桥梁。一个实用的、完备的、准确的句法分析将是计算机真正理解自然语言的基础。,句法分析的一个例子,小王和小李的妹妹结婚了。,两种分析结果:,(3)语义分析语义分析的研究,如词义排歧和语义归纳、推理等,尚处于萌芽期并将逐步走向前
7、台,成为下一阶段计算语言学研究的一个亮点。计算机本身没有智能,自然语言的语义分析和内容信息的理解,离不开相应的语义知识库的支持,它是帮助计算机“了解”人类语言的一个媒介和桥梁,也是让计算机逐渐“聪明”起来的一个物质前提。语义分析主要研究基于语义知识库的语义相似度的计算方法、语义知识库的自动构建等内容。,语义:语言和世界的映射关系,符号之间的变换关系,“语义”就是一个单词或者一个语言成分的含义的解释。而其解释通常不止一种。在自然语言中,一个词语的新语义往往是通过流行的新的用法而产生的。一个词语或单词在句子中有多种解释,取哪一个呢?,语用:符号或者语言成分和它们的使用者之间的关系 通俗解释:说话双
8、方按照该单词或者语言成分所在的“语境”,来确定应该选择其中哪一种释义或含义。“语境”的范围可以变化很大:从一个句子,一段话,到整篇文章,乃至文章作者的身份和处境,所在的时代的文化背景。,(4)语用分析,例1:有两组不同背景的人在一起开会。其中一组人正在讨论社会上流感问题,有人在说话中提到了“病毒”,他们是在医学的语境下指称“生物性病毒”。另一组人正在讨论计算机安全问题,有人在说话中提到了“病毒”,他们是在计算机安全这一话题的语境下指称“计算机病毒”。评论:这是同一词语在不同的“语境”中具有不同“语义”的典型例子。,例2:设想例1中正在讨论“计算机病毒”和“生物病毒”的这两组人正在一起开会,目的
9、是为领导机关拟定某某年度科研项目申报提纲中的最后一个项目的名称。由于主管机关所掌握的经费的限制,允许申报的只剩下最后一项,而且必须在中午12点以前将申请书上报,过期作废。可以想象,这两组人将互相争执不下,达不成共识。但是为了避免因为上报时机延误而使双方都落空,最后决定先写出一个“表述一致,但是各持自己理解”的申请书:关于建立“病毒”检测与预防机制的研究。至于是那种病毒,留待今后进一步申述。评论:这是一个假想的例子,但是他显示了许多外交文件的实质。自然语言的含糊性在此显示出它伟大的功能。,句法、语义和语用是语言的三个主要层面,三者之间可能存在如下关系:句法结构相同,语义不同“吃苹果”,“吃食堂”
10、句法:动宾结构 语义分别为:动作-对象关系,动作-地点关系 语义相同,句法结构不同“吃了苹果”,”苹果吃了”语义:动作-对象 句法分别为:动宾关系和主谓关系 语义相同,语用有别 你真讨厌(男生对女生说)你真讨厌(女生对男生说),统计语言模型是自然语言处理的主流技术之一。研究的主要内容包括各种语言模型的构建、改进以及应用N-gram模型隐马尔科夫(HMM)模型最大熵模型依存语言模型朴素贝叶斯模型条件随机场,(5)统计语言模型,4.NLP系统的主要任务,知识表示 产生式 谓词逻辑 语义网络 概念从属理论(CD理论)知识控制策略 知识的冲突,知识集成 从多个知识源获取的不同层面,不同性质的知识如何融
11、合在一起 知识获取 机器学习,5.一个NLP的例子:英汉机器翻译,输入英文句子:-Miss Smith putted two books on this dining table.形态分析(Morphological Analysis)MissSmithput(+ed)twobook+sonthisdining table.,句法分析(Syntactic Analysis),词汇转换Miss 小姐Smith 史密斯put(+ed)放Two 两book+s 书on 在上面this 这dining table.餐桌 短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面,生成 模拟人类写
12、作的过程,生成符合逻辑的连 贯的文本 史密斯小姐放两书在这餐桌上面 史密斯小姐(把)两(本)书放在这(张)餐桌上面 最终翻译结果 英文:Miss Smith put two books on this dining table.中文:史密斯小姐把两本书放在这张餐桌上面,6.语言处理的步骤,文本预处理 句子切分 形态分析(Morphological Analysis)分词 词性标注(Part-of-Speech Tagging)句法分析 词义消歧(Word Sense Disambiguation)语义关系分析 指代消解(Anaphora Resolution)逻辑形式(Logic Form),
13、三、NLP研究的困难,歧义(ambiguity)病构(ill-formedness)复述(paraphrasing),1.歧义,(1)注音歧义 快乐(le4)的单身汉 火红的第五乐(yue4)章(2)分词歧义 交集型歧义 研究/生命/的/起源 研究生/命/的/起源 组合型歧义 他/从/马/上/下来 他/从/马上/下来,和未登录词绞在一起 刘挺/拔/出/宝剑 刘/挺拔/出/宝剑 多交集字段的歧义 结合 成分 子时 有的歧义无法在句子内部解决 乒乓球拍卖完了(3)短语歧义 咬死猎人的狗 咬死猎人的狗,(4)句法歧义 Our company is training workers.,(5)语义歧义-
14、词义歧义 打玩乒乓球 打编织毛衣 打通讯电话(6)语用歧义“你真讨厌!”,2.病构,真实文本的语言现象非常复杂,不规范,不干净 未登录词(Unknown Words)已知词的新用法 例子:Please xerox a copy to me.不合乎语法的句子 例子:他非常男人。(名词不能受程度副词修饰)不合乎语义约束的搭配 例子:My car drinks gasoline like water.由于作者疏忽造成的错误 真实的语言是非常脏的,3.复述,举例 毛泽东出生于1893年 毛泽东出生在1893年 毛泽东诞生于1893年 毛泽东同志是1893年出生的 毛主席生于1893年 毛泽东生于光绪6
15、年(虚拟的),四、NLP方法论之争 理性主义和经验主义,理性主义者(Rationalist)1960-1985:理性主义是主流 他们的信念 乔姆斯基 先天语言能力 对于语法的描述 形成基于规则的传统语言处理技术 句法规则的确抓住了语言的主要模式 什么是语言中最普遍的模式呢,是否需要量化?,理性主义的问题,基于规则的方法需要大量的人工操作,人类总结的规则不完备、不一致,规则多了相互冲突,难以对抗复杂的语言现象 语言的变化是渐变的 比如:“打”电话,究竟从那一天开始“打”被赋予了通讯的意义呢,经验主义者,信念 孩子的大脑只能做一些普通的操作:联想、模式识别、一般化。孩子从丰富的信号输入中学习到了语
16、言的结构 设定一个语言模型,推导出参数值 形成今天的基于统计的语言处理技术 对每一种语言现象均给出统计量化指标 意义:“观其伴,知其意”,经验主义,我们生活在一个充满不确定和不完整信息的世界里 人类的认知是一个随机现象 语言也是一个随机现象 对没有见过的语言现象进行估计 复杂的概率模型,理性主义和经验主义的差别,它们描述了不同的事情 理性主义试图去描写人脑中的模型 结构主义者 经验主义试图去描写实际出现的语言 功能主义者 外部语言是内部语言的非直接的事实,进一步探讨,从九十年代初期开始,统计方法开始成为自然语言处理的主流 规范的语言和非规范的语言之间没有明确的界限 统计还是非统计,界限也比较模
17、糊 追求纯净,还是实用 自然语言处理尚不存在统一的数学基础 概率模型、信息论和线性代数,语言工程,近来,人们更有兴趣解决工程实际问题 人们处理真实世界中的语料,并客观地比较不同方法的优劣 面向真实文本的评测,使科学研究和技术开发进一步统一起来。90年初的汉语分词系统仍未考虑“未登录词”问题,那时已经宣称分词结果达到90%以上,其实只是解决了部分歧义问题。90年代中后期才开始面向真实文本的处理。,五、统计方法示例,从语料库中学习,语料库(Corpus,Corpora)按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合,主要用于研究自然语言的规律,特别是统计语言学模型的训练以及
18、相关系统的评价和测试。可以是原始的文本(生语料库)也可以是带标记的文本(熟语料库)语料库是统计NLP的知识来源,语料库标注或加工 对电子语料(包括书面语和口语)进行不同层次的语言学分析,并添加相应的“显性”的解释性的语言学信息过程。与不同层次的自然语言分析相对应,语料库的加工主要包括词性标注、句法标注、语义标注和语用标注等,由于汉语书写的特殊性,汉语的语料加工还包括分词。,语料库示例,语料库资源,Brown Corpus 带词性标记,一百万词 布朗大学 平衡语料库 美国英语 1960s-1970s Lancaster-Oslo-Bergen(LOB)British English of the
19、 Brown corpus Susanne corpus Brown语料库的子集,13万词,Lexical Resources,Penn Treebank(宾州树库)美国宾西法尼亚大学开发 取材华尔街日报 以开发中文树库,但规模有限 Canadian Hansards 加拿大议会双语文本 WordNet 语义词典,免费使用,HowNet 中文语义词典.北京大学语法词典 北大-富士通人民日报语料库 半年的人民日报 带词性标注,举例,一篇短篇小说 作者:Mark Twain 小说名:Tom Sawyer 词数(Word tokens)71,370 词形数(Word types)different
20、things present 8,018 平均每个词形出现:8.9次,最高频率的词汇,English the 3332 and 2972 a 1775 to1725 of 1440 Chinese 的5%,一些结果,词频:具有该词频的词的数目1 39932 12923 6644 4105 2436 1997 1728 1319 8210 9111-50 54051-100 99100102,一些结果 最高频的100个词覆盖了全部词汇出现次数的一半 一半的词汇在语料库中只出现一次 90%的词形出现10次或更少 很难预测那些很少出现或者干脆在语料库中从未出现的词的行为,齐普夫定律,讲者和听者试图使
21、用最小的力气 讲者希望:使用最少的词汇,没有标点空格 听者希望:使用较多的词汇,丰富的标记 什么是齐普夫定律?在一个大的语料库中统计词频,然后将词按照词频从高到低的顺序排列成一张表 一个词的词频 f 和它在表中的序号 r 之间存在如下关系:f 1/r or fr=k,k是一个常数,数据,词频的分布,齐普夫定律是对人类语言词频分布的一个粗糙而有用的描述:非常常用的词很少 中频词的数量中等 大量低频词 从语料库中,我们能够观察到少数高频词的丰富的信息,而对大量低频词却观察不到足够数量的信息,词义和词频的关系,一个词的词义的数量和该词词频排序的平方根成反比关系,词频和词长,词频和词长是反比例关系 短
22、词经常被使用“in”,“of”,.“的”,“了”这符合通讯编码理论,搭配,搭配(Collocations)复合词(disk drive)短语动词(make up)其它固定短语(bacon and eggs).,二元搭配,例子:80871 of the 58841 in the 26430 to the 21842 on the 21839 for the 18568 and the,对搭配进行过滤,根据词性过滤掉一些搭配,例如虚词,从而获得真正有意义的搭配 最高频的搭配模式是:动词+名词 形容词+名词 名词+名词,有意义的搭配,例子:11487 New York A N 7261 United
23、 States A N 5412Los Angeles N N 3301 last year A N 3191 Saudi Arabia N N 2699 last week A N 2514 vice president A N,搭配知识,在一个窗口中抽取的搭配知识可以影射深层的句法关系 例子:维护国家的利益 VP(V+N)+de+N or V+NP(N+de+N)在语料库中有:维护我们的利益,维护中国的利益,.国家利益不容侵犯,损害国家的利益,红楼梦前80回与后40回的统计分析,预备知识 导论 数学基础 语言学基础 语料库 词汇 搭配 统计推理 词义消歧 词汇知识获取,六、本课的主要内容,
24、语法 马尔科夫模型 词性标注 概率上下文无关文法 概率句法分析器 应用 机器翻译 聚类和分类 信息检索,参考书,Christopher D.Manning,Hinrich Schutze Foundations of Statistical Natural Language Processing,MIT Press,1999 Daniel Jurafsky,James H.Martin Speech and Language Processing,Prentice Hall,2000 宗成庆 统计自然语言处理,清华大学出版社,2008,NLP领域的学术会议,主要国际会议 ACL Associa
25、tion of Computational Linguistics Coling IJCNLP EACL(European Chapter of ACL)ANLP(Applied NLP)SIGIR(SIG Information Retrieval)TREC(Text REtrieval Conference)主要国内会议 JSCL(全国计算语言学联合学术会议),NLP领域主要学术机构,国外 美国 CMU-LTI(Language Technology Institute)南加州大学ISI(Information Science Institute)宾西法尼亚大学 日本 ATR 加拿大阿尔博
26、塔:林德康 国内外企和港台 微软研究院:周明、李沐、高剑峰 香港城市大学:黄锦辉 台湾:苏克毅、陈克俭、简立峰,国内研究机构,北京 清华:孙茂松、周强 北大:俞士汶、孙斌 中科院自动化所:徐波、赵军 声学所:黄曾阳 北京语言大学:宋柔、荀恩东 京外 复旦:吴立德、黄萱菁 交大:王永成 东北大学:姚天顺、朱靖波 厦门大学:史晓东 哈工大:。,七、抛砖引玉,1.基于搜索引擎的自动术语翻译,目标:不借助于任何辞典工具而从Web中自动挖掘出术语的翻译 方法:模拟用户借助搜索引擎查找术语翻译的行为,并将其自动化 原理:Web上存在大量的部分平行语料如:该课程是机器学习(Machine Learning)的导论课程。这门课提供了机器学习中许多技术及算法的概观。,系统实现:系统的初始查询界面,本地词典结果显示界面,基于搜索引擎的术语翻译界面,基于搜索引擎的术语查询结果,在“翻译包含”中输入过滤词语,输入过滤词语后新的显示界面,2.哼歌系统背景:在搜索某首歌时,不知道是谁唱的,也不知道歌曲名称和歌词,只知道歌曲的调儿,怎么查找这样的歌曲呢?语音识别的一个典型应用。语音识别最典型的模型:隐马尔可夫模型,课后思考,如果做一个信息过滤项目(比如垃圾广告过滤),那么应如何进行?,