检索方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26031593 阅读:22 留言:0更新日期:2020-10-23 21:09
本发明专利技术实施例公开了一种检索方法、装置、计算机设备及存储介质,包括:获取目标数据;计算所述目标数据与预设的数据集中各数据的语义相似度,确定所述数据集中所述语义相似度最高的至少一项数据作为目标检索数据;根据所述目标数据与所述目标检索数据的语义分类确定检索结果。通过确定目标数据与目标检索数据的语义分类,将其中与目标数据语义分类相同的数据作为检索结果,可以避免检索结果与目标数据的语义分类不符导致检索结果错误的情况,有效提高了检索的准确性。

【技术实现步骤摘要】
检索方法、装置、计算机设备及存储介质
本专利技术涉及计算机应用
,特别是涉及一种检索方法、装置、计算机设备及存储介质。
技术介绍
跨媒体检索是基于内容的多媒体检索中一个新的研究领域,跨媒体检索是指用户任意给定一种媒体查询如图片或文字,系统自动检索出与查询主题相关的其他媒体内容。跨媒体检索是模式识别、人机交互、人工智能、统计分析、网络通讯、数据库等多个领域知识的综合,必将在信息检索、信息挖掘领域产生深远的影响。跨媒体检索的目标是计算不同媒体数据间的相似度,对于给定的查询样例,检索出与查询样例相关的其他媒体数据。目前,在跨媒体检索时,一般通过计算不同模态数据的语义相似度,将输出排名最高的样本数据作为检索结果。但是在这个过程中没有参考同种模态和不同模态之间的类别信息。举例来说,对于类别标签为“A”的待查询文本,若通过相似度得到与其相似度最高的图像类别是“B”,则可以肯定查询结果是错误的。目前很少研究者关注这个问题,因此跨媒体检索的准确性无法得到保证。
技术实现思路
本专利技术实施例能够提供一种提高跨媒体检索准确性的检索方法、装置、计算机设备及存储介质。为解决上述技术问题,本专利技术创造的实施例采用的一个技术方案是:提供一种检索方法,包括:获取目标数据;计算所述目标数据与预设的数据集中各数据的语义相似度,确定所述数据集中所述语义相似度最高的至少一项数据作为目标检索数据;根据所述目标数据与所述目标检索数据的语义分类确定检索结果。可选地,所述计算所述目标数据与预设的数据集中的各项数据的语义相似度,确定所述数据集中所述语义相似度最高的至少一项数据作为目标检索数据,包括:确定所述目标数据与所述数据集中各数据的语义分布向量;根据所述目标数据与所述数据集中各数据的语义分布向量计算所述语义相似度;确定所述语义相似度最高的至少一项数据作为目标检索数据。可选地,所述确定所述目标数据与所述数据集中各数据的语义分布向量,包括:获取所述目标数据与所述数据集中各数据的特征向量;将所述目标数据与所述数据集中各数据的特征向量进行关联映射;根据所述关联映射结果确定所述目标数据与所述数据集中各数据的语义分布向量。可选地,所述根据所述目标数据与所述目标检索数据的语义分类确定检索结果,包括:获取所述目标数据的第一语义类别;将所述第一语义类别与第二语义类别进行对比,其中,所述第二语义类别为所述目标检索数据中各数据对应的语义类别;根据对比结果确定所述检索结果。可选地,所述第二语义类别包括第一检索数据的语义类别,所述第一检索数据为所述目标检索数据中与所述目标数据语义相似度最高的数据,所述根据对比结果确定所述检索结果,包括:判断第一检索数据的语义类别与所述第一语义类别是否相同;当所述第一检索数据的语义类别与所述第一语义类别相同时,确定所述第一检索数据为所述检索结果。可选地,所述目标数据和数据集至少一项为文本数据,所述获取所述目标数据与所述数据集中各数据的特征向量之前还包括提取文本数据的特征向量,所述提取文本数据的特征向量,包括:对所述文本数据进行文本处理以得到词数据,所述文本处理的方法包括分词处理和去除停用词;将所述词数据输入到预训练的词向量模型中,根据所述词向量模型的输出结果确定所述词数据的词向量;根据所述词向量计算所述文本数据的特征向量。可选地,所述目标数据和所述数据集至少一项为图像数据,所述获取所述目标数据与所述数据集中各数据的特征向量之前还包括提取图像数据的特征向量,所述提取图像数据的特征向量,包括:对图像数据进行图像处理,其中,所述图像处理的方法包括大小调整和归一化处理;将图像处理后的数据输入到预训练的图像向量提取模型中,根据所述图像向量提取模型的输出结果确定所述图像数据的特征向量。为解决上述技术问题,本专利技术实施例还提供一种检索装置,包括:获取模块,用于获取目标数据;处理模块,用于计算所述目标数据与预设的数据集中各数据的语义相似度,确定所述数据集中所述语义相似度最高的至少一项数据作为目标检索数据;执行模块,用于根据所述目标数据与所述目标检索数据的语义分类确定检索结果。可选地,所述检索装置,还包括:第一处理子模块,用于确定所述目标数据与所述数据集中各数据的语义分布向量;第一计算子模块,用于根据所述目标数据与所述数据集中各数据的语义分布向量计算所述语义相似度;第二处理子模块,用于确定所述语义相似度最高的至少一项数据作为目标检索数据。可选地,所述检索装置,还包括:第一获取子模块,用于获取所述目标数据与所述数据集中各数据的特征向量;第一映射子模块,用于将所述目标数据与所述数据集中各数据的特征向量进行关联映射;第三处理子模块,用于根据所述关联映射结果确定所述目标数据与所述数据集中各数据的语义分布向量。可选地,所述检索装置,还包括:第二获取子模块,用于获取所述目标数据的第一语义类别;第一对比子模块,用于将所述第一语义类别与第二语义类别进行对比,其中,所述第二语义类别为所述目标检索数据中各数据对应的语义类别;第四处理子模块,用于根据对比结果确定所述检索结果。可选地,所述检索装置,还包括:第一判断子模块,用于判断第一检索数据的语义类别与所述第一语义类别是否相同;第一执行子模块,用于当所述第一检索数据的语义类别与所述第一语义类别相同时,确定所述第一检索数据为所述检索结果。可选地,所述检索装置,还包括:第五处理子模块,用于对所述文本数据进行文本处理以得到词数据,所述文本处理的方法包括分词处理和去除停用词;第一输入子模块,用于将所述词数据输入到预训练的词向量模型中,根据所述词向量模型的输出结果确定所述词数据的词向量;第二计算子模块,用于根据所述词向量计算所述文本数据的特征向量。可选地,所述检索装置,还包括:第六处理子模块,用于对图像数据进行图像处理,其中,所述图像处理的方法包括大小调整和归一化处理;第二输入子模块,用于将图像处理后的数据输入到预训练的图像向量提取模型中,根据所述图像向量提取模型的输出结果确定所述图像数据的特征向量。为解决上述技术问题,本专利技术实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述检索方法的步骤。为解决上述技术问题,本专利技术实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述检索方法的步骤。本专利技术实施例的有益效果是:通过计算目标数据与数据集中各数据的语义相似度,以语义相似度最高的至少一项数据作为目标检索数据,然后再在目标检索数据中确定检索结果,可以利用语义相似度进行快速的初本文档来自技高网...

【技术保护点】
1.一种检索方法,其特征在于,包括:/n获取目标数据;/n计算所述目标数据与预设的数据集中各数据的语义相似度,确定所述数据集中所述语义相似度最高的至少一项数据作为目标检索数据;/n根据所述目标数据与所述目标检索数据的语义分类确定检索结果。/n

【技术特征摘要】
1.一种检索方法,其特征在于,包括:
获取目标数据;
计算所述目标数据与预设的数据集中各数据的语义相似度,确定所述数据集中所述语义相似度最高的至少一项数据作为目标检索数据;
根据所述目标数据与所述目标检索数据的语义分类确定检索结果。


2.如权利要求1所述的检索方法,其特征在于,所述计算所述目标数据与预设的数据集中的各项数据的语义相似度,确定所述数据集中所述语义相似度最高的至少一项数据作为目标检索数据,包括:
确定所述目标数据与所述数据集中各数据的语义分布向量;
根据所述目标数据与所述数据集中各数据的语义分布向量计算所述语义相似度;
确定所述语义相似度最高的至少一项数据作为目标检索数据。


3.如权利要求2所述的检索方法,其特征在于,所述确定所述目标数据与所述数据集中各数据的语义分布向量,包括:
获取所述目标数据与所述数据集中各数据的特征向量;
将所述目标数据与所述数据集中各数据的特征向量进行关联映射;
根据所述关联映射结果确定所述目标数据与所述数据集中各数据的语义分布向量。


4.如权利要求1所述的检索方法,其特征在于,所述根据所述目标数据与所述目标检索数据的语义分类确定检索结果,包括:
获取所述目标数据的第一语义类别;
将所述第一语义类别与第二语义类别进行对比,其中,所述第二语义类别为所述目标检索数据中各数据对应的语义类别;
根据对比结果确定所述检索结果。


5.如权利要求4所述的检索方法,其特征在于,所述第二语义类别包括第一检索数据的语义类别,所述第一检索数据为所述目标检索数据中与所述目标数据语义相似度最高的数据,所述根据对比结果确定所述检索结果,包括:
判断第一检索数据的语义类别与所述第一语义类别是否相同;
当所述第一检索数据的语义类别与所述第一语义类别相同...

【专利技术属性】
技术研发人员:韩红旗冉亚鑫刘志辉张运良高雄李琳娜
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1