基于查询扩展的信息检索方法、装置和存储介质制造方法及图纸

技术编号:42464404 阅读:29 留言:0更新日期:2024-08-21 12:51
本申请公开了基于查询扩展的信息检索方法、装置和存储介质,包括:对每个表征模型,利用模型对查询对象和数据库中查询样本进行特征提取,得到查询对象特征和查询样本特征及其之间的相似度,在每个表征模型中选择相似度靠前的K个查询样本特征组成第一集合;在第一集合中,统计各查询样本特征所属查询样本的出现频率,将出现频率大于频率阈值的查询样本按出现频率排序后组成第二集合;在第二集合中,选择前P个查询样本组成查询扩展集合;将查询扩展集合中的查询样本在指定表征模型下的查询样本特征与指定表征模型对应的查询对象特征进行特征融合,利用指定表征模型基于融合后特征进行检索。应用本申请,能有效提高检索的准确率和召回率。

【技术实现步骤摘要】

本申请涉及神经网络技术,特别涉及一种基于查询扩展的信息检索方法、装置和存储介质


技术介绍

1、为了改善信息检索的准确率(precision)和召回率(recall),而向原始的查询用例中增加信息(如关键字、辅助图像等)来重新查询,该技术称作查询扩展。常用查询扩展方法为根据初次检索的排序结果,挑选topn样例作为查询扩展样例进行二次检索,这种方案在数据分布多样而表征模型描述能力有限的情况下,初次检索容易将信息趋同的真值或分布相近容易混淆的非真值排至前位,前者导致扩展查询丰富性不足,无法起到提高检索准确率和召回率的作用,后者会引入较多的错误样例,继而牵引出更多噪声信息,造成检索效果退化。

2、目前有方案提出通过从数据模板库中挖掘真值的方法,替代上述粗排序取topn的方式来扩展查询。但是相应方案存在如下问题:

3、1)需要手动触发查询扩展;2)需要预先建立数据分布多样的模板库,可实施性较弱,且模板库无法推广到任意信息的检索任务上;3) 模板库构建过程受限于数据采集和人工标注的误差,无可避免地引入噪声,且模板库存在未涵盖原始查询用例数据形本文档来自技高网...

【技术保护点】

1.一种基于查询扩展的信息检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述按照出现频率进行排序时,进一步基于查询样本的最大相似度进行所述排序,且优先按照所述出现频率进行所述排序。

3.根据权利要求1所述的方法,其特征在于,在所述第二集合中选择前P个查询样本后,去掉所述前P个查询样本中最大相似度低于相似度阈值的查询样本,组成所述查询扩展集合。

4.根据权利要求1所述的方法,其特征在于,所述多个表征模型包括分别具有不同级别表征粒度的神经网络模型。

5.根据权利要求1所述的方法,其特征在于,基于系统的计算能力和所述信息...

【技术特征摘要】

1.一种基于查询扩展的信息检索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述按照出现频率进行排序时,进一步基于查询样本的最大相似度进行所述排序,且优先按照所述出现频率进行所述排序。

3.根据权利要求1所述的方法,其特征在于,在所述第二集合中选择前p个查询样本后,去掉所述前p个查询样本中最大相似度低于相似度阈值的查询样本,组成所述查询扩展集合。

4.根据权利要求1所述的方法,其特征在于,所述多个表征模型包括分别具有不同级别表征粒度的神经网络模型。

5.根据权利要求1所述的方法,其特征在于,基于系统的计算能力和所述信息检索中的召回数量需求确定所述k。

6.根据权利要求3所述的方法,其特征在于,基于所述信息检索中的噪声抑制需求确定所述p和所述相似度阈值。

7.根据权利要求1所述的方法,其特征在于,所述确定各查询样本的出现频率,包括:

8.根据权利要求1所述的方法,其特征在于,按照预先确定的各个表征...

【专利技术属性】
技术研发人员:张翌晨陈畅怀车军
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1