查询处理制造技术

技术编号:24421609 阅读:57 留言:0更新日期:2020-06-06 14:23
系统、方法和计算机程序产品,被配置为执行包括以下步骤的操作:接收指定AND条件和OR条件的查询,基于AND索引结构确定语料库中的多个文档中的满足查询的AND条件的文档集合,计算文档集合中的第一文档的查询相似性得分,其中查询相似性得分基于针对查询的OR条件计算的第一散列值、OR条件的权重值以及OR索引中指定的第一文档的第二散列值,以及返回第一文档的指示和查询相似性得分,作为对查询的响应。

Query processing

【技术实现步骤摘要】
【国外来华专利技术】查询处理
技术介绍
本专利技术涉及查询处理。搜索查询通常包括大量条件。条件的类型可以包括合取条件(例如,"猫AND狗")和析取条件(例如,"苹果OR橙子")。用于处理搜索查询的常规技术通常针对一种类型的查询条件来优化。例如,可以有效地处理合取条件的数据结构在处理析取条件时不是有效的。此外,由于它们的性质,有效处理析取条件的数据结构不能以准确的方式处理合取条件。由于查询条件可以计数到数百、数千或更多,因此传统技术不能有效地处理包括两种类型的条件的查询。
技术实现思路
本专利技术的实施例涉及查询处理,并且更具体地,涉及用于相似性搜索的查询的析取条件和合取条件的混合处理。根据本专利技术的一个实施例,一种方法包括:接收指定AND条件和OR条件的查询;基于AND索引结构,确定语料库中的多个文档中的满足查询的AND条件的文档集合;计算文档集合中的第一文档的查询相似性得分,其中查询相似性得分基于针对查询的OR条件计算的第一散列值、OR条件的权重值以及OR索引中指定的第一文档的第二散列值;以及返回第一文档的指示和查询相似性得分作为对查询的响应。在本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n接收指定AND条件和OR条件的查询;/n基于AND索引结构,确定语料库中的多个文档中的满足所述查询的AND条件的文档集合;/n由处理器计算所述文档集合中的第一文档的查询相似性得分,其中,所述查询相似性得分基于针对所述查询的OR条件计算的第一散列值、OR条件的权重值以及OR索引中指定的第一文档的第二散列值;以及/n返回第一文档的指示和所述查询相似性得分,作为对所述查询的响应。/n

【技术特征摘要】
【国外来华专利技术】20171026 US 15/795,0711.一种方法,包括:
接收指定AND条件和OR条件的查询;
基于AND索引结构,确定语料库中的多个文档中的满足所述查询的AND条件的文档集合;
由处理器计算所述文档集合中的第一文档的查询相似性得分,其中,所述查询相似性得分基于针对所述查询的OR条件计算的第一散列值、OR条件的权重值以及OR索引中指定的第一文档的第二散列值;以及
返回第一文档的指示和所述查询相似性得分,作为对所述查询的响应。


2.根据权利要求1所述的方法,其中,所述AND索引包括倒排列表,所述倒排列表被配置为存储包括多个特征中的相应特征的每个文档的文档标识符(ID),其中所述OR索引包括所述多个文档中的每个文档的相应散列值,其中第一散列值、第二散列值和所述OR索引中的多个散列值基于局部敏感散列函数来计算。


3.根据权利要求2所述的方法,其中,所述查询指定多个AND条件,其中,所确定的文档集合满足所述多个AND条件中的每个AND条件,其中,确定所述文档集合包括:
生成搜索查询,所述搜索查询包括所述查询中指定的所述多个AND条件中的每个AND条件的指示;
针对所述AND索引处理所述搜索查询;以及
从所述AND索引接收所述文档集合,所述文档集合包括所述文档集合中的每个文档的文档ID。


4.根据权利要求2所述的方法,其中,所述查询指定多个OR条件,其中,计算所述查询相似性得分包括:
为(i)所述多个OR条件中的每个OR条件和(ii)所述多个OR条件来计算相应散列值;
基于所述多个OR条件的散列值和从所述OR索引接收的第一文档的第二散列值,计算第一文档相对于所述多个OR条件的总相似性得分;
基于从所述OR索引接收的第一文档的第二散列值和相应OR条件的散列值,计算第一文档相对于每个OR条件的相应OR相似性得分;
对于超过预定义阈值的每个相应OR相似性得分,将与所述相应OR条件相关联的权重相加到所述总相似性得分;以及
返回所述总相似性得分作为所述查询相似性得分。


5.根据权利要求1所述的方法,还包括在计算第一文档的相似性得分之前:
从所述OR索引接收第一文档的文档标识符(ID);以及
确定第一文档的文档ID被包括在所述文档集合中。


6.根据权利要求5所述的方法,还包括:
从所述OR索引接收所述语料库中的多个文档中的第二文档的文档标识符(ID);
确定第二文档的文档ID未被包括在所述文档集合中;
避免计算第二文档的查询相似性得分;以及
避免返回第二文档作为对所述查询的响应。


7.根据权利要求1所述的方法,其中,所述AND索引和所述OR索引是在所述语料库中的多个文档的预处理阶段期间生成的。


8.一种系统,包括:
处理器;以及
存储器,其包含程序,所述程序在由所述处理器执行时执行操作,所述操作包括:
接收指定AND条件和OR条件的查询;
基于AND索引结构,确定语料库中的多个文档中的满足所述查询的AND条件的文档集合;
计算所述文档集合中的第一文档的查询相似性得分,其中,所述查询相似性得分基于针对所述查询的OR条件计算的第一散列值、OR条件的权重值以及OR索引中指定的第一文档的第二散列值;以及
返回第一文档的指示和所述查询相似性得分,作为对所述查询的响应。


9.根据权利要求8所述的系统,其中,所述AND索引包括倒排列表,所述倒排列表被配置为存储包括多个特征中的相应特征的每个文档的文档标识符(ID),其中所述OR索引包括所述多个文档中的每个文档的相应散列值,其中第一散列值、第二散列值和所述OR索引中的多个散列值基于局部敏感散列函数来计算。


10.根据权利要求9所述的系统,其中,所述查询指定多个AND条件,其中,所确定的文档集合满足所述多个AND条件中的每个AND条件,其中,确定所述文档集合包括:
生成搜索查询,所述搜索查询包括所述查询中指定的所述多个AND条件中的每个AND条件的指示;
针对所述AND索引处理所述搜索查询;以及
从所述AND索引接收所述文档集合,所述文档集合包括所述文档集合中的每个文档的文档ID。


11.根据权利要求9所述的系统,其中,所述查...

【专利技术属性】
技术研发人员:吉田一星
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1