在文档检索中对文档进行评分制造技术

技术编号:26309250 阅读:58 留言:0更新日期:2020-11-10 20:13
本公开内容提供了用于在文档检索中对文档进行评分的方法和装置。在一些实现中,可以接收查询,其中,查询包括一个或多个词条。可以搜索数据库以获得包含一个或多个词条中的至少一个词条的文档。可以根据词条是否包含在文档中来对一个或多个词条中的每个词条进行分类,每个经分类的词条是匹配词条或不匹配词条。可以获得查询和文档之间的匹配模式,匹配模式指示每个经分类的词条的整合。可以至少基于匹配模式来确定文档相对于查询的相关性得分。

【技术实现步骤摘要】
【国外来华专利技术】在文档检索中对文档进行评分
技术介绍
信息检索(例如文档检索)处理信息词条的表示、存储、组织,以及访问信息词条。在文档检索中,可以通过搜索针对给定查询获得多个文档。倒排索引已广泛用于文档搜索,尤其是用于大型文档集,例如网络搜索、赞助搜索和电子商务搜索。当获得多个文档时,可以对获得的文档应用评分过程以确定文档的相应得分。然后,可以基于由某些评分方法确定的多个搜索到的文档的得分,针对给定查询,从这些多个搜索文档中选择并呈现前k个文档。
技术实现思路
提供本
技术实现思路
以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。本公开内容的实施例提出了用于在文档检索中对文档进行评分的方法和装置。在一些实现中,可以接收查询,其中,该查询包括一个或多个词条。可以搜索数据库以获得包含所述一个或多个词条中的至少一个词条的文档。可以根据所述词条是否包含在所述文档中来对所述一个或多个词条中的每个词条进行分类,每个经分类的词条是匹配词条或不匹配词条。可以获得所述查本文档来自技高网...

【技术保护点】
1.一种用于在文档检索中对文档进行评分的方法,包括:/n接收查询,所述查询包括一个或多个词条;/n在数据库中搜索以获得包含所述一个或多个词条中的至少一个词条的文档;/n根据所述一个或多个词条中的每个词条是否包含在所述文档中来对所述词条进行分类,其中,每个经分类的词条是匹配词条或不匹配词条;/n获得所述查询和所述文档之间的匹配模式,所述匹配模式指示所述每个经分类的词条的整合;以及/n至少基于所述匹配模式,确定所述文档相对于所述查询的相关性得分。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于在文档检索中对文档进行评分的方法,包括:
接收查询,所述查询包括一个或多个词条;
在数据库中搜索以获得包含所述一个或多个词条中的至少一个词条的文档;
根据所述一个或多个词条中的每个词条是否包含在所述文档中来对所述词条进行分类,其中,每个经分类的词条是匹配词条或不匹配词条;
获得所述查询和所述文档之间的匹配模式,所述匹配模式指示所述每个经分类的词条的整合;以及
至少基于所述匹配模式,确定所述文档相对于所述查询的相关性得分。


2.根据权利要求1所述的方法,其中,所述整合标识所述查询中的每个词条、所述每个词条的分类以及所述查询中每个词条的位置。


3.根据权利要求1所述的方法,还包括:
确定所述查询的多个潜在匹配模式;以及
通过计算与所述多个潜在匹配模式中的每个潜在匹配模式相对应的得分,获得与所述多个潜在匹配模式相对应的多个得分。


4.根据权利要求3所述的方法,其中,所述相关性得分是通过从所述多个得分中选择与和所述匹配模式相同的潜在匹配模式相对应的得分来确定的。


5.根据权利要求3所述的方法,其中,计算与每个潜在匹配模式相对应的所述得分包括:
基于所述潜在匹配模式和所述查询,针对所述潜在匹配模式生成不同类型的多个特征,其中,每个特征具有权重;以及
基于所述多个特征的权重,计算与所述潜在匹配模式相对应的所述得分。


6.根据权利要求3所述的方法,其中,计算与每个潜在匹配模式相对应的所述得分包括:
计算与所述潜在匹配模式的至少一个子模式相对应的至少一个原始得分;以及
通过在所述至少一个原始得分之中选择最高的原始得分来获得与所述潜在匹配模式相对应的得分。


7.根据权利要求1所述的方法,其中,所述相关性得分是通过计算与所述匹配模式相对应的得分来确定的。


8.根据权利要求7所述的方法,其中,计算与所述匹配模式相对应的所述得分包括:
基于所述匹配模式和所述查询,针对所述匹配模式生成不同类型的多个特征,其中,每个特征具有权重;以及
基于所述多个特征的权重,计算与所述匹配模式相对应的所述得分。


9.根据权利要求5或8所述的方法,其中,所述不同类型包括下列各项中的至少一项:
所述查询中的匹配词条,
所述查询中的不匹配词条,
所述查询中任意一个匹配词条与任意一个不匹配词条的组合,
所述查询中任意一个匹配词条与任意另一个匹配词条的组合,
所述查询中词条数量与匹配词条数量的组合,
所述查询中连续的匹配词条,
所述查询中匹配词条的块,
所述查询中任意一个匹配词条与任意一个不匹配词条的二元组,
所述查询中不匹配词条的二元组,
所述查询中任意一个匹配词条与相应匹配模式的组合,以及
所述查询中任意一个不匹配词条与相应匹配模式的组合。


10.根据权利要求5或8所述的方法,其中,每个特征的所述权重是基于训练数据集合来训练的,每个训练数据包括历史查询和多个检索到的历史文档,每个历史文档标记有相关性值。


11.根据权利要求1所述的方法,其中,所述匹配模式由向量表示,并且所述向量的每个维度的值为零或一。


12.一种用于在文档检索中对文档进行评分的装置,包括:

【专利技术属性】
技术研发人员:邓维维顾晨谭屯子符丁方一鑫罗丹张祺
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1