【技术实现步骤摘要】
本申请涉及神经网络技术,特别涉及一种基于查询扩展的信息检索方法、装置和存储介质。
技术介绍
1、为了改善信息检索的准确率(precision)和召回率(recall),而向原始的查询用例中增加信息(如关键字、辅助图像等)来重新查询,该技术称作查询扩展。常用查询扩展方法为根据初次检索的排序结果,挑选topn样例作为查询扩展样例进行二次检索,这种方案在数据分布多样而表征模型描述能力有限的情况下,初次检索容易将信息趋同的真值或分布相近容易混淆的非真值排至前位,前者导致扩展查询丰富性不足,无法起到提高检索准确率和召回率的作用,后者会引入较多的错误样例,继而牵引出更多噪声信息,造成检索效果退化。
2、目前有方案提出通过从数据模板库中挖掘真值的方法,替代上述粗排序取topn的方式来扩展查询。但是相应方案存在如下问题:
3、1)需要手动触发查询扩展;2)需要预先建立数据分布多样的模板库,可实施性较弱,且模板库无法推广到任意信息的检索任务上;3) 模板库构建过程受限于数据采集和人工标注的误差,无可避免地引入噪声,且模板库存在未涵
...【技术保护点】
1.一种基于查询扩展的信息检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述按照出现频率进行排序时,进一步基于查询样本的最大相似度进行所述排序,且优先按照所述出现频率进行所述排序。
3.根据权利要求1所述的方法,其特征在于,在所述第二集合中选择前P个查询样本后,去掉所述前P个查询样本中最大相似度低于相似度阈值的查询样本,组成所述查询扩展集合。
4.根据权利要求1所述的方法,其特征在于,所述多个表征模型包括分别具有不同级别表征粒度的神经网络模型。
5.根据权利要求1所述的方法,其特征在于,基于系统
...【技术特征摘要】
1.一种基于查询扩展的信息检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述按照出现频率进行排序时,进一步基于查询样本的最大相似度进行所述排序,且优先按照所述出现频率进行所述排序。
3.根据权利要求1所述的方法,其特征在于,在所述第二集合中选择前p个查询样本后,去掉所述前p个查询样本中最大相似度低于相似度阈值的查询样本,组成所述查询扩展集合。
4.根据权利要求1所述的方法,其特征在于,所述多个表征模型包括分别具有不同级别表征粒度的神经网络模型。
5.根据权利要求1所述的方法,其特征在于,基于系统的计算能力和所述信息检索中的召回数量需求确定所述k。
6.根据权利要求3所述的方法,其特征在于,基于所述信息检索中的噪声抑制需求确定所述p和所述相似度阈值。
7.根据权利要求1所述的方法,其特征在于,所述确定各查询样本的出现频率,包括:
8.根据权利要求1所述的方法,其特征在于,按照预先确定的各个表征...
【专利技术属性】
技术研发人员:张翌晨,陈畅怀,车军,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。