针对跨媒体检索的相似性度量方法技术

技术编号:25951197 阅读:57 留言:0更新日期:2020-10-17 03:43
本发明专利技术公开了一种正对跨媒体检索的相似性度量方法,利用特征提取器提取输入样本及数据库样本的特征向量;利用Softmax函数将输入样本的特征向量以及数据库样本特征向量转化成概率特征;分别计算输入样本与数据库里每个样本的Cosine

【技术实现步骤摘要】
针对跨媒体检索的相似性度量方法
本专利技术属于计算机视觉技术,具体为一种针对跨媒体检索的相似性度量方法。
技术介绍
在大数据时代,随着如图像、文本、视频和音频等多媒体数据的快速增长以及广泛普及,用户的检索需求变得越来越多样灵活,传统的关键词检索已经越来越不能满足人们的需求。因此,跨媒体检索方法已经越来越有吸引力,它比单一媒体检索更加灵活方便,通过这种方式,用户可以通过输入任何媒体类型的查询,获得所有媒体类型的相关检索结果。例如,当用户发现了一张感兴趣的照片时,可以提交这张照片,并检索到相关的文本描述,图像,视频,音频叫声等信息,从而让用户在不知道手里的媒体样本的任何信息的情况下,可以方便快捷的获取到足够多的相关信息。跨媒体检索已经成为研究热点,其流程如图1所示。跨媒体检索流程的最后步骤是要计算输入的样本特征与数据库里的样本特征之间的相似性,把计算出的相似性从近到远排序就是该输入在数据库里检索得到的结果。现有的跨媒体检索中使用的相似性度量方法,一种是使用余弦距离度量相似性,用向量空间中两个向量夹角的余弦值作为衡量两个样本的特征间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。另一种是使用欧氏距离度量相似性,欧氏距离是一个通常采用的距离定义,在二位和三位空间中是两点的直线距离,在高维空间中的欧式距离的就是两点之间的绝对距离。欧氏距离衡量的是空间各点的绝对距离,与各个点所在的位置坐标直接相关;而余弦距离衡量的是特征的夹角,更加体现在方向上的差异,而不是位置。余弦距离的效果往往要好于欧氏距离,因此余弦距离被更多的使用。然而上述两种方法都存在忽视检索的特殊性以及准确率不高的问题,导致检索结果不够理想的问题。
技术实现思路
本专利技术的目的在于提供一种针对跨媒体检索的相似性度量方法。实现本专利技术目的的技术解决方案为:一种针对跨媒体检索的相似性度量方法,具体步骤为:步骤1:利用特征提取器提取输入样本及数据库样本的特征向量;步骤2:利用Softmax函数将输入样本的特征向量以及数据库样本特征向量转化成概率特征;步骤3:分别计算输入样本与数据库里每个样本的Cosine+值,具体公式为:Cosine+(A,B)=Cosine(A,B)-α*var(B)*B[argmax(A)]式中,A是输入样本的概率特征,B是数据库样本的概率特征,α是比例系数,Cosine(A,B)是输入样本的概率特征与数据库样本的概率特征的余弦相似度,var(B)是数据库样本的概率特征的方差,B[argmax(A)]是数据库样本在输入样本的概率最大的类别处的概率;步骤4、将数据库样本按照输入样本与数据库中每个样本的Cosine+值从大到小排序。优选地,所述特征提取器为CNN模型或RNN模型。优选地,将特征向量转化成概率特征的具体公式为:xi是n维输入样本的特征向量或者是数据库里每个样本的特征向量的第i个特征。优选地,输入样本的概率特征与数据库样本的概率特征的余弦相似度的具体公式为:优选地,数据库样本的概率特征的方差的具体公式为:式中,xi是数据库样本概率特征的第i个属性,是数据库样本概率特征的属性的平均值。本专利技术与现有技术相比,其显著优点:(1)本专利技术可以获取更加具有代表性的清晰的检索结果;(2)本专利技术采用特征的方差来指代样本的典型性,运用方便,运算快捷,鲁棒性和抗噪音能力高;(3)本专利技术解决了模糊样本返回模糊结果的不理想情况;(4)本专利技术在诸多数据集的对比实验中展现出了稳定的检索准确率提升量。下面结合附图对本专利技术作进一步详细描述。附图说明图1是跨媒体检索流程的示意图。图2是相似性度量示意图。图3是一组清晰样本的示意图。图4是一组模糊样本的示意图。图5是样本的概率特征示意图。图6是比例系数效果示意图。图7是本专利技术的实验效果示意图。具体实施方式如图2所示,一种针对跨媒体检索的相似性度量方法,具体步骤为:步骤1、将输入样本和数据库里所有的样本输入特征提取器里,提取出各自对应的特征向量。进一步地,特征提取器可以使用常用的CNN或RNN模型,如ResNet,AlexNet或者LSTM,在某些实施例中,采用的是ResNet50。具体地,如图1所示,本专利技术中样本指图片、文本、音频和视频四种媒体数据,输入样本即在检索时输入的四种媒体数据中的任意一种。检索过程实际就是在数据库中寻找与输入样本最相似的其他样本。步骤2、将步骤1得到的输入样本的特征向量和数据库里每个的样本特征向量分别输入到Softmax函数里,将类别特征转化成概率特征:xi是n维输入样本的特征向量或者是数据库里的每个样本的特征向量的第i个特征。步骤3、计算输入样本与数据库里每个样本的Cosine+值,具体公式为:Cosine+(A,B)=Cosine(A,B)-α*var(B)*B[argmax(A)]式中,A是输入样本的概率特征,B是数据库中某一个样本的概率特征,α是比例系数,数值为类别总数,如图6所示,发现当α的值设置为类别数时,有最高的准确率;Cosine(A,B)是输入样本的概率特征与数据库中某一个样本的概率特征的余弦相似度,具体为:var(B)数据库中每一个样本的概率特征的方差,具体为:式中,B是数据库中某个样本的概率特征,xi是B的第i个属性,是B的属性的平均值。本专利技术中输入样本归类为模糊样本和清晰样本。如图3是一组清晰样本,图4是一组模糊样本,明显的,清晰样本更具有代表性和典型性。如果仅仅使用余弦距离作为相似性指标,当用户的输入是模糊样本时,会导致返回的也是模糊样本,从而导致检索效果不足够理想。因此希望让检索获得更加清晰的结果。如图5所示,发现清晰样本的特征方差更大,而模糊样本的方差较小。使用数学上的方差计算公式来量化样本的代表性和典型性。B[argmax(A)]是数据库中每一个样本在输入样本的概率最大的类别处的概率;进一步的实施例中,获取数据库中每一个样本在输入样本的概率最大的类别处的概率的具体方法为:确定输入样本的概率特征的所有属性中最大属性所在的序号:argmax(A)argmax(A)是输入样本的概率最大的类别号:以argmax(A)作为输入样本的预测类别。B[argmax(A)]是数据库中每一个样本在输入样本的概率最大的类别处的概率。该值使得与数据库中与输入样本类别相同的样本权重上升,如果没有该值,会使得其他与输入无关的样本靠前。步骤4、将数据库的样本按照步骤3得到的输入样本与数据库中每一个样本的Cosine+值从大到小排序,Cosine+的数值越小,相似性越大排序的结果就是检索的结果。如图7所示,图中,Ou本文档来自技高网
...

【技术保护点】
1.一种针对跨媒体检索的相似性度量方法,其特征在于,具体步骤为:/n步骤1:利用特征提取器提取输入样本及数据库样本的特征向量;/n步骤2:利用Softmax函数将输入样本的特征向量以及数据库样本特征向量转化成概率特征;/n步骤3:分别计算输入样本与数据库里每个样本的Cosine

【技术特征摘要】
1.一种针对跨媒体检索的相似性度量方法,其特征在于,具体步骤为:
步骤1:利用特征提取器提取输入样本及数据库样本的特征向量;
步骤2:利用Softmax函数将输入样本的特征向量以及数据库样本特征向量转化成概率特征;
步骤3:分别计算输入样本与数据库里每个样本的Cosine+值,具体公式为:
Cosine+(A,B)=Cosine(A,B)-α*vae(B)*B[argmax(A)]
式中,A是输入样本的概率特征,B是数据库样本的概率特征,α是比例系数,Cosine(A,B)是输入样本的概率特征与数据库样本的概率特征的余弦相似度,var(B)是数据库样本的概率特征的方差,B[argmax(A)]是数据库样本在输入样本的概率最大的类别处的概率;
步骤4、将数据库样本按照输入样本与数据库中每个样本的Cosine+值从大到小排序。

【专利技术属性】
技术研发人员:王琼郭佑栋姚亚洲唐振民
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1