基于文档的语义丰富度对文档进行排名制造技术

技术编号:24254990 阅读:86 留言:0更新日期:2020-05-23 01:29
提出了一种用于在计算系统中对多个文档进行排名的解决方案,每个文档包括多个文档术语。一种对应的方法包括:接收包括一个或多个查询术语的查询用于选择文档,计算查询与文档之间的对应相似性索引,每个相似性索引是根据查询术语与对应文档的文档术语之间的比较来计算的,确定文档的对应语义丰富度指示符,根据对应语义丰富度指示符来调整相似性索引,以及根据调整的对应相似性索引对文档的至少一部分进行排名以供其选择。

Ranking documents based on their semantic richness

【技术实现步骤摘要】
【国外来华专利技术】基于文档的语义丰富度对文档进行排名
技术介绍
下文对与本专利技术的上下文相关的技术的论述来引入本专利技术的背景。然而,即使当该讨论涉及文档、动作、人工制品等时,它也不暗示或表示所讨论的技术是现有技术的一部分或者是与本公开相关的领域中的公知常识。本公开涉及信息
更具体地,本公开涉及文件的排名。在用于选择可能与任何特定需求相关的文档的计算系统中,文档的排名是常见的;典型的例子是在信息检索(IR)的上下文中,其中排名被用于促进识别与不同主题相关的文档(例如由搜索引擎识别的因特网中的网页)。实际上,相关文档的选择是经验性质的活动,因为不可能在数学上证明任何文档比另一个更相关;因此,文档的排名被用于估计其相关性,然后相应地对文档进行排名或分类(例如,用于由人类用户对其进行手动选择)。通常,排名应用于文档的语料库(或集合),其由大量文档形成,每个文档包括一系列术语(例如,单词)。用于选择期望文档的查询包括被认为表征它们的一个或多个术语(例如,由用户提交给搜索引擎)。根据查询的术语与文档的术语之间的比较来计算每个文档的相似性索引。然后,根据文档的相似性索引对文档进行排名,以便选择期望的那些(例如,通过按照其相似性索引的降序向用户返回最相关页面的列表,以便手动选择实际感兴趣的那些)。用于对文档进行排行的普遍技术是基于向量空间模型(VSM)。简言之,在VSM技术中,每个文档和每个查询简单地根据它们的术语和它们的出现来索引。然后,文档和查询由多维空间(由公共词汇表的术语定义)中的对应向量表示;如果每个维度的术语存在于文档/查询中,则其值被设置为相应的术语权重。例如,根据rf-idf加权方案来定义术语权重;特别地,每个术语的术语权重被设置为(文档/查询中的术语的)术语频率tf与(文档语料库中的术语的)反向文档频率idf的乘积。然后根据文档向量的角度差计算文档相对于查询的相似性索引;这样,相似性索引取决于常见的术语,从而给予重复的(根据它们的术语频率)和/或稀少的(根据它们的反向文档频率)术语更大的重要性。任何排名技术的质量取决于其能够多好地选择实际相关的文档(由排名在最顶部的文档所标识的)。例如,精确度(由相对于所选文档的总数而选择的相关文档来定义)应当尽可能高;实际上,期望限制与信息需要不相关的(不相关的)文档,即假阳性结果(理想地选择非相关文档)。同时,召回率(由相对于相关文档的总数而选择的相关文档来定义)应当尽可能高;实际上,希望限制未被选择的相关文档,即假阴性结果(理想地选择所有相关文档)。更简单地,排名技术应当能够选择一些相关文档;例如,当将排名技术应用于浏览范例时,基于对所选文档的相关性的快速检查,这些所选文档可能导致或可能不导致对所选文档的更深检查的(诸如当搜索因特网中的页面时);实际上,在这种情况下,只要至少一些所选文档是相关的,则查准率和查全率可能不太重要。低质量的排名可能不利地影响计算系统的性能。特别地,选择一些相关文档的低查准率和召回率或者简单地低概率可能需要提交一个或多个附加查询以找到实际相关的文档。这些附加查询涉及计算系统的资源的相应附加消耗(例如,用于服务附加查询的计算能力、用于接收附加查询并返回其结果的网络流量)。
技术实现思路
在此提出本公开的简化概述以便提供对本公开的基本理解;然而,本
技术实现思路
的唯一目的是以简化形式引入本公开的一些概念作为其以下更详细描述的序言,并且其不应被解释为其关键元件的标识或其范围的描绘。概括地,本公开基于根据文档的语义丰富度对文档进行排名的思想。具体地,一方面提供了一种用于在计算系统中对多个文档进行排名的方法,其中根据文档的相应语义丰富度指示符来调整文档与用于选择它们的查询之间的相应相似性索引。另一方面提供了用于实现该方法的对应的计算机程序。另一方面提供了用于实现该方法的对应的计算机程序产品。另一方面提供了一种对应的系统。更具体地,本公开的一个或多个方面在独立权利要求中阐述,并且其有利特征在从属权利要求中阐述,其中所有权利要求的措辞通过引用逐字并入本文(其中任何有利特征参考任何具体方面提供,所述具体方面在必要的变更下应用于每个其它方面)。附图说明参考以下结合附图阅读的对本公开的详细描述(仅以非限制性指示的方式给出)将最好地理解本公开的解决方案及其另外的特征和优点(其中,为了简单起见,用相同或相似的参考标记表示对应的元件,并且不重复对它们的解释,并且通常使用每个实体的名称来表示其类型和属性(诸如值、内容和表示))。具体为:图1A-图1E示出了根据本公开的实施例的解决方案的一般原理。图2示出了其中可以应用根据本公开的实施例的解决方案的计算系统的示意性框图。图3示出了表示可以用于实现根据本公开的实施例的解决方案的主要软件组件的角色的协作图。图4A-图4B示出了描述与根据本公开的实施例的解决方案的实现有关的活动的流程的活动图。具体实施方式具体参考图1A-图1E,示出了根据本公开的实施例的解决方案的一般原理。从图1A开始,文档语料库在计算系统中可用,例如因特网中的(web)页面;每个文档包括多个(文档)术语,例如,对应文本的单词。在计算机中,例如在(web)服务器计算机或简称为服务器105中,从客户计算机或简称为客户端110接收查询,以选择期望的文档。查询包括一个或多个(查询)术语(被认为表征期望的文档),其将被匹配到语料库的文档的文档术语,例如,用于由客户端110的用户搜索与特定主题相关的最相关页面。响应于此,执行以下操作以根据文档的相关性对文档进行排名。这些操作将由计算机(即,所讨论的示例中的服务器105)执行,因为它们完全不适合人类。实际上,这将需要读取语料库的所有文档(通常是非常高的数量,例如,在因特网中的数十亿个页面的量级);因此,人这样做所花费的时间将如此巨大以致于使其绝对不切实际。相反,读取语料库的所有文档正是它们的排名所试图避免的。事实上,该过程的目的是准确地在语料库中的大量文档中自动识别出假定为相关的文档,以便允许在相对短的时间内手动选择实际感兴趣的文档。移至图1B,在开始时,计算查询和每个文档之间的相似性索引;相似性索引度量文档与查询(语义上)相似的程度(并且然后它被认为与其相关),即文档的含义与查询相关的程度(例如,由降序的1到0的数字分数定义相似性)。相似性索引是根据查询术语和文档的文档术语之间的比较来计算的,例如通过应用VSM技术。转到图1C,在根据本公开的实施例的解决方案中,为每个文档确定语义丰富度指示符。语义丰富度指示符度量文档应当传达的信息量(即,其信息量);换言之,语义丰富度指示符测量文档的认知内容,即,表达其概念有多少是有意义的。例如,根据其稀有的文档术语或稀有术语(例如由语料库的文件中出现在频率阈值以下的文档术语定义)和/或根据其句法复杂性(例如由文档中出现的动词短语的数量定义)来计算文档的语义丰富度指示符。转到图1D,根据相应的语义丰富度指示符来调整文档的相似性索引(相对于查询);本文档来自技高网
...

【技术保护点】
1.一种用于对计算系统中的多个文档进行排名的方法,文档中的每个包括多个文档术语,其中方法包括在计算机的控制下:/n接收包括一个或多个查询术语的查询用于选择文档;/n计算查询与文档之间的对应相似性索引,相似性索引中的每一个是根据查询术语与对应文档的文档术语之间的比较来计算的;/n确定文档的对应语义丰富度指示符;/n根据对应语义丰富度指示符调整相似性索引;以及/n根据被调整的对应相似性索引对至少部分文档进行排名以对其进行选择。/n

【技术特征摘要】
【国外来华专利技术】20171030 US 15/796,9501.一种用于对计算系统中的多个文档进行排名的方法,文档中的每个包括多个文档术语,其中方法包括在计算机的控制下:
接收包括一个或多个查询术语的查询用于选择文档;
计算查询与文档之间的对应相似性索引,相似性索引中的每一个是根据查询术语与对应文档的文档术语之间的比较来计算的;
确定文档的对应语义丰富度指示符;
根据对应语义丰富度指示符调整相似性索引;以及
根据被调整的对应相似性索引对至少部分文档进行排名以对其进行选择。


2.根据权利要求1所述的方法,其中所述确定对应的语义丰富度指示符包括:
根据对应文档的任何罕见术语来计算语义丰富度指示符中的每一个,罕见术语由存在于文档中的、频率低于频率阈值的文档术语组成。


3.根据权利要求2所述的方法,其中,所述根据对应文档的任何罕见术语来计算语义丰富度指示符中的每一个包括:
根据文档中的文档术语的分布的统计分析来计算频率阈值。


4.根据权利要求3所述的方法,其中,所述根据对应文档的任何罕见术语来计算语义丰富度指示符中的每一个包括:
计算文档术语的对应反向频率指示符,反向频率指示符中的每一个指示其中存在对应文档术语的文档的分数的倒数;
基于反向频率指示符的集中趋势参数计算特异性阈值;以及
根据高于文档中存在的文档术语的特异性阈值的反向频率指示符来计算语义丰富度指示符中的每一个。


5.根据权利要求4所述的方法,其中所述计算对应的反向频率指示符包括:
将对数变换应用于反向频率指示符。


6.根据权利要求1所述的方法,其中所述确定对应的语义丰富度指示符包括:
根据相应文档的句法复杂度来计算语义丰富度指示符中的每一个。


7.根据权利要求6所述的方法,其中,所述根据对应文档的句法复杂度来计算语义丰富度指示符中的每一个包括:
根据存在于文档中的任何复杂语法单元来量化文档的每一个的语法复杂度,复杂语法单元由具有高于复杂度阈值的复杂度的任何语法单元组成。


8.根据权利要求7所述的方法,其中所述量化文档中的每个的句法复杂度包括:
识别定义相应的复杂句法单元的、存在于文档中的每一个的任何动词短语。

【专利技术属性】
技术研发人员:M·克鲁德尔A·佩龙
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1