《信息检索技术.ppt》由会员分享,可在线阅读,更多相关《信息检索技术.ppt(59页珍藏版)》请在课桌文档上搜索。
1、信息检索技术,信息检索技术,一、信息检索技术综述二、信息检索的统计模型三、信息检索中的自然语言处理方法,一、信息检索技术综述,1、信息检索系统的定义与术语2、信息检索系统3、信息检索系统的评价4、信息检索简史,一、信息检索技术综述,1、信息检索系统的定义与术语 信息检索,最早是1952年由Calvin N.Mooers提出的,其原义包括海量信息的存储和查找两个方面的内容。信息检索按照信息源的不同分为3类(互联网、光盘数据库、网络数据库)信息检索定义 是指从非结构化的数据记录,特别是包含自由格式的自然语言文本的数据记录中获取与用户的信息需求相关的数据记录的系统、方法与过程。“非结构化”主要是与数
2、据库检索相区分。,一、信息检索技术综述,2、信息检索系统 一个信息检索系统是一个能够对数据全集的数据记录进行存储、组织与维护,并根据用户查询获取相关信息的系统。如下图所示:,一、信息检索技术综述,2、信息检索系统 信息检索系统由8个就基本处理模块和两大系统资源组成。基本处理模块是:用户接口模块、用户查询文本操作模块、文档文本操作模块、用户查询处理模块、索引构建模块、数据库管理模块、搜索模块、相关度排序模块等。两大系统资源是:语义词典和以数据库形式存放的数据全集,一、信息检索技术综述,2、信息检索系统 用户接口模块:是与用户交互信息,主要包括接受用户查询请求,根据用户对信息检索结果的反馈调整信息
3、检索系统的有关参数,显示用户查询的结果等。,一、信息检索技术综述,2、信息检索系统 用户查询文本操作模块:对用户的查询字串进行过滤停用词、词干抽取等处理,并转换为机器内部的用户查询表示形式。,一、信息检索技术综述,2、信息检索系统 文档文本操作模块:对文档数据库中的文档进行停用词过滤、词干抽取等处理,并将文档转换为机器内部的表示形式,供建立索引模块处理。,一、信息检索技术综述,2、信息检索系统 用户查询处理模块:是对用户查询的词汇进行同义词扩充,或者根据用户对信息检索的倾向性对查询的词汇进行转换处理。索引构建模块:是建立从词汇到该词汇出现的文档的倒排索引表,从而对用户查询中的词汇进行快速定位。
4、,插入内容:倒排索引,什么是倒排索引呢?请看下面的例子:假设文章1的内容是:aaa bbb ccc ddd文章2的内容是:bbb ddd yyy上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成:,插入内容:倒排索引,aaa 1bbb 1,2ccc 1ddd 1,2yyy 2当建好了上面所示的倒排索引后,一旦我们要查找哪些文章中含有某个关键字时,只需取出该关键词所对应的文章号就行了。比如我们查找aaa,返回1.查找ddd,返回1,2,一、信息检索技术综述,2、信息检索系统 数据库管理模块:将文档
5、以数据库的格式存储、管理和访问,搜索模块:根据用户查询,借助倒排序索引表和数据库管理模块从数据库中抽取出包含用户查询关键字的文档,相关度排序模块:逐一计算用户查询与搜索模块返回文档的相关度,最后将这些文档按照相关度由大到小排序。,一、信息检索技术综述,3、信息检索系统的评价 一个系统在实际应用中的时间和空间消耗是衡量一个系统优劣的重要指标。评价信息检索系统的一个核心因素即:相关性两个最常用的相关性指标是:精确度和召回率,一、信息检索技术综述,3、信息检索系统的评价精确度:是检索获取的相关数据记录个数与检索获得的所有数据记录个数的比值。它反映了系统能够返回与用户查询相关数据记录的能力。召回率:是
6、检索获取的与用户查询相关的数据记录个数与数据全集中所有与用户查询相关的数据记录个数的比值。反映了系统能够找到全部相关数据记录的能力。,一、信息检索技术综述,3、信息检索系统的评价精确度:Precision=召回率:Recall=A为信息检索系统获取的数据记录的集合,R为数据全集中所有与用户查询相关的数据记录的集合,一、信息检索技术综述,3、信息检索系统的评价Van Rijsbergen于1979年提出了E度量,将精确度和召回率结合起来,并赋予不同的权值:其中P为精确度,R为召回率,在0-1之间。,一、信息检索技术综述,4、信息检索简史1950年美Calvin N.Mooers首创“信息检索”1
7、958年美Luhn提出统计检索基本理论方法1960年Marson和Kuhns提出信息检索概率模型1965年美康奈尔大学Gerard Salton及其学生提出信息检索向量空间模型,并设计实现了SMART系统1966年在Cranfield项目中提出系统评价方法。,一、信息检索技术综述,4、信息检索简史1968年美Rocchio和Salton提出查询扩展方法1972年Lockheed公司推出DIALOG系统1980年代:模糊集、模糊推理、线性回归技术、通用向量空间模型1990年代:潜在语义索引技术、贝叶斯网络、神经网络技术基于互联网的大型搜索引擎信息检索技术向深度和广度发展,二、信息检索的统计模型,
8、信息检索领域的技术和方法可以划分为两大类:基于统计的方法和基于语义的方法。基于统计的方法主要是根据用户查询与数据全集中数据的统计量度计算相关性基于语义的方法对用户查询内容和数据全集中的内容进行语法语义分析。即对用户查询和数据全集内容理解的基础上进行两者的相关性计算。,二、信息检索的统计模型,概念:对实际信息检索过程加以抽象构成的数学模型。一个信息检索模型IRM=(D,Q,R)其中D是文档集合,Q是用户需求的集合,R:是集合D和Q的笛卡儿积到实数集R的一个映射,对每个用户查询q,每个文档d,映射R将(d,q)映射为一个实数,称为用户查询q与文档d的相关度。,笛卡儿积简单说明,笛卡儿积是集合论中很
9、重要的概念 举例:1,2,3 a,b,c,d=(1,a),(1,b),(1,c),(1,d),(2,a),(2,b),(2,c),(2,d),(3,a),(3,b),(3,c),(3,d)。,二、信息检索的统计模型,1、基于统计的信息检索模型2、布尔模型3、向量空间模型4、概率模型,二、信息检索的统计模型,1、基于统计的信息检索模型在统计模型中,文档被表示成关键词的集合,又称为文档的平面结构,关键词又称为索引词,p138文本表示示例词汇的权重表示该词汇的重要性。文档dj表示为一个N维向量,表示为 Dj=(w1,j,w2,j,wN,j),二、信息检索的统计模型,1、基于统计的信息检索模型在统计模
10、型假设文档中词汇彼此独立假设词汇在文档中没有二义性西文需要词干抽取中文需要分词,二、信息检索的统计模型,2、布尔模型文档中索引词只有0和1 两种取值,分别表示文档中包含该索引词和不包含该索引词。用户查询是由标准逻辑操作符AND,OR,NOT连接构成布尔表达式。例如:设关键词为k1,k2,k3,k4,k5,数据全集为:D1,D2,D3,D4,D5。,二、信息检索的统计模型,2、布尔模型其中D1=k1,k2,k3,k4,k5,D2=k1,k3,k4,D3=k2,k4,D4=k1,k3,k5,D5=k4,k5若用户查询为k1 AND(K1 OR NOT(k3)结果为:D1,D2,D4(D1,D3 D
11、3,D5)=D1,布尔模型的优缺点,优点:机制简单,检索效率高,因此在早期的商用信息检索系统中得到普遍的应用。缺点:分类能力有限,仅能分为相关、不相关两大类,而不能给出相关性大小的数值,因此经常出现高度相关的文档排序靠后的现象。,二、信息检索的统计模型,3、向量空间模型在向量空间模型中,文档表示为由索引词的权重构成的N维向量:dj=(w1,j,w2,j,wN,j)用户查询也可以表示成N维向量q=(w1,q,w2,q,wN,q)计算两者的相似度Similarity(q,dj)关键:索引词权重的计算、两者相似度计算,二、信息检索的统计模型,(一)权重的确定(1)词频与倒文档频度法(2)最大正规化法
12、(3)对数词频法(4)余弦正规化法,二、信息检索的统计模型,(1)词频与倒文档频度法 该方法将一个索引词在单个文档中的重要性和在整个数据全集中的重要性结合起来,成为一个统一度量。一个词在文档中出现的频度是该词重要性的标志之一,wi,j=TFi,j=freqi,j(索引词Ki在文档dj中的频度)一个索引词的权重还应该与该词所在的文档总数成反比或近似反比关系,它反映了包含该索引词的文档区别于其他文档的程度。,二、信息检索的统计模型,(1)词频与倒文档频度法其中n为数据全集中文档总数,ni为包含索引词i的文档总数.总上所述,一个索引词ki在文档dj中的权重为:,TF.IDF举例,例:一个数据全集共有
13、文档10000个,某索引词A在某一个文档中出现了20次,在数据全集中,有2000个文档包括了A,则索引词A的TF.IDF值为:,TF.IDF缺点:,主要没有考虑文档中索引词的总数,例如:一个在100个词构成的文档中出现10次的词,应该较1000个词构成的文档中出现20词更为“重要”。因此我们应该考虑文档中索引词总数对权值的影响。,二、信息检索的统计模型,(2)最大正规化法针对TF的改进主要是将词频进行正规化处理,将它映射为一个在0,1中的量。改进方法之一是将词频除以某个与包含该词文档的索引词总数相关的因子。,最大正规化法的缺点,当文档中某词的词频很大,而其它词频相对较小的时候,使用该方法会出现
14、多数词汇TF值较小,并且彼此相差不大。,二、信息检索的统计模型,(3)对数词频法此法减少了文档中少数高频词对权重的影响,相对降低了高频词权重的取值,减轻了文档长度的变化对这一取值的变化影响。,二、信息检索的统计模型,(4)余弦正规化法另一类正规化方法是通过整个文档向量长度来实现。当一个文档向量构造完成后,该向量的每一维都设定了对应索引词的TF.IDF值,将这个向量的所有维上的这些值都除以该文档向量的欧氏长度,既得到经过正规化的文档向量。一个向量的欧氏长度是该向量上所有分量平方和的平方根。由于经过正规化后的向量具有单位长度,而且在每一维上的值恰好是该向量及其在这一维上相应坐标轴上投影的夹角余弦值
15、,因此称为余弦正规化法。解决少数高频词对其他词权值扰动过大。,二、信息检索的统计模型,(二)相似度计算相似度是用户查询与文档相关性的量度。Similarity(d,q)取值通常满足如下条件:非负性:Similarity(d,q)=0对称性:Similarity(d,q)=Similarity(q,d)若Similarity(d,q)=0,表示完全不相关Similarity(d,q)越大,相关性越大Similarity(d,q)取值范围正规化为0,1Similarity(d,q)=1,表示完全相同,二、信息检索的统计模型,(二)相似度计算简单的相似度计算是计算这两个N维向量的内积N维向量经过余弦
16、正规化后,其内积恰是两个向量夹角的余弦:,内积,向量内积的定义,解:,单位向量,夹角,二、信息检索的统计模型,(二)相似度计算余弦相似度的主要缺点:对于一个用户查询,包含索引词个数较多的长文档往往计算结果偏低。,二、信息检索的统计模型,(二)相似度计算基于距离的相似度计算:其中D1,D2是向量,d1i,d2i分别是D1,D2第i维的值,参数p是正整数,p=1时称为街区距离,p=2时称为欧氏距离,p为无穷大时,称为最大方向距离。,二、信息检索的统计模型,4、概率模型 贝叶斯网络推理模型提供了将不同来源的证据结合起来,以确定给定文档满足用户查询或者信息需求概率要求的自然方法。贝叶斯网络是一个描述随
17、机变量之间因果关系的有向无环图。节点表示随机变量,边表示父节点和子节点之间的依赖关系,并用条件概率表示依赖强度。,二、信息检索的统计模型,贝叶斯网络,二、信息检索的统计模型,4、概率模型 计算用户查询与文档相关度的问题转换为由贝叶斯网络计算用户查询与文档联合概率问题:,二、信息检索的统计模型,4、概率模型 对P(dj)的计算方法:平均分布法:N是数据全集中文档总数正规化法:|dj|是文档向量dj的长度,二、信息检索的统计模型,4、概率模型 对P(ki|dj)的计算方法:二值法:权重法:,二、信息检索的统计模型,4、概率模型 对P(q|k1,kN)的计算方法:二值法:权重法:,三、信息检索中的自
18、然语言处理方法,1、自然语言处理方法2、基于统计的方法3、基于语义词典的方法,三、信息检索中的自然语言处理方法,1、自然语言处理方法所谓信息检索中的自然语言处理方法是指通过文档中自然语言文本所做的语法语义分析,来提高信息检索精确度或召回率的方法统称。该方法以对文档文本的语言结构分析和语义分析为特色,将信息处理的层次深入到了文档中文本的内容。,三、信息检索中的自然语言处理方法,1、自然语言处理方法自然语言处理技术按照语言处理对象的不同单位可以划分为音韵、词形、词法、语法、语义、语篇、语用等不同层次。同一语义可以有多种不同的表达方式,因此 引入“语义相关”概念,计算语义相似度,三、信息检索中的自然
19、语言处理方法,1、自然语言处理方法语义相似度是将词汇间的种种不同的直接或间接语义关系映射为一个表示词汇间语义关系的紧密程度的 数值。词汇间语义相关度的计算方法大体上可以分成两类:一类是基于按照概念间结构层次关系组织语义词典的方法,这种方法建立在这样一个假设基础上,即当且仅当两个词汇在概念的结构层次网络图中存在一条通路时,他们具有一定的语义相关性。,三、信息检索中的自然语言处理方法,1、自然语言处理方法概念C的概率:Np是在该语料库中具有词性p的词汇总数,freq(cp)是具有词性p的概念c在大规模语料库中出现的个数:,三、信息检索中的自然语言处理方法,1、自然语言处理方法Word(cp)是在w
20、ordnet中所有具有词性p的概念c包含的词汇,包括概念c本身以及概念c通过上下文关系相连接的所有后代概念节点。于是任意两词汇相似度计算公式为:其中subsume(x,w)为词汇w的所有通过上下位关系相连接的祖先概念节点。,三、信息检索中的自然语言处理方法,2、基于统计的方法基于统计的方法是将词汇的上下文信息的概率分布作为词汇语义相关度计算的参照,这类方法建立在两个词汇具有某种程度的语义相关当且仅当它们出现在相同的上下文中这一假设基础上。如Brown的基于平均互信息方法Lillian Lee基于相关熵的方法,三、信息检索中的自然语言处理方法,3、基于语义词典的方法基于语义词典的方法的方法依赖于比较完备的按照概念间结构层次关系组织的大型语义词典,如wordnet等。国内外对汉语分类体系的研究也取得了一些成果。,