【技术实现步骤摘要】
多媒体数据的特征提取方法、多媒体数据检索方法及装置
[0001]本申请涉及多媒体
,具体涉及一种多媒体数据的特征提取方法、多媒体数据检索方法及装置。
技术介绍
[0002]近年来,互联网技术发展迅速,目前人们的生活已经与互联网密不可分。伴随着互联网技术和通信技术的日趋成熟,多媒体产业也迎来了蓬勃的发展,各类视频、短视频等多媒体内容提供应用也层出不穷。
[0003]在一些情况下,例如需要进行多媒体数据去重,或者进行著作权维权的情况下,需要对多媒体数据进行检索。
[0004]相关技术中对多媒体数据的检索方法多采用特征提取和比对方法进行检索,而目前对多媒体数据的特征提取的方法提取得到的多媒体数据特征的准确性较差,导致目前多媒体数据检索方法的检索结果准确性较差。
技术实现思路
[0005]本申请实施例提供一种多媒体数据的特征提取方法、多媒体数据检索方法及装置,该多媒体数据的特征提取方法可以有效提升多媒体数据特征提取的准确性,进而可以提高多媒体数据检索结果的准确性。
[0006]本申请第一 ...
【技术保护点】
【技术特征摘要】
1.一种多媒体数据的特征提取方法,其特征在于,所述方法包括:对目标多媒体数据进行图像特征提取,得到所述目标多媒体数据的图像特征序列;对目标多媒体数据中的音频数据进行语音识别,并对语音识别结果进行文本特征提取,得到所述目标多媒体数据的文本特征序列;将所述图像特征序列和所述文本特征序列进行融合,得到融合特征序列;对所述融合特征序列进行自注意力计算,得到目标特征序列;根据所述目标特征序列确定所述目标多媒体数据的目标特征。2.根据权利要求1所述的方法,其特征在于,所述将所述图像特征序列和所述文本特征序列进行融合,得到融合特征序列,包括:对所述图像特征序列进行局部池化处理,得到目标图像特征序列;对所述文本特征序列进行局部池化处理,得到目标文本特征序列;将所述目标图像特征序列和所述目标文本特征序列进行融合,得到融合特征序列。3.根据权利要求2所述的方法,其特征在于,所述将所述目标图像特征序列和所述目标文本特征序列进行融合,得到融合特征序列,包括:获取预设的类别令牌特征;将所述类别令牌特征、所述目标图像特征序列以及所述目标文本特征序列进行拼接,得到拼接特征序列;获取所述拼接特征序列对应的位置编码序列以及维度编码序列;对所述拼接特征序列、所述位置编码序列以及所述维度编码序列进行融合,得到融合特征序列。4.根据权利要求3所述的方法,其特征在于,所述对所述融合特征序列进行自注意力计算,得到目标特征序列,包括:将所述融合特征序列映射到查询特征、键特征以及值特征的空间中,得到查询特征序列、键特征序列以及值特征序列,并计算所述查询特征序列与所述键特征序列的相关性矩阵;确定所述融合特征序列中与所述类别令牌特征对应的类别融合特征、与所述目标图像特征序列对应的图像融合特征序列以及与所述目标文本特征序列对应的文本融合特征序列;基于所述类别融合特征与所述融合特征序列中每一特征的交互结果、所述图像融合特征序列中每一特征与所述文本融合特征序列中每一特征之间的交互结果以及所述相关性矩阵计算自注意力权重矩阵;基于所述自注意力权重矩阵对所述值特征序列进行加权处理,得到目标特征序列。5.根据权利要求2所述的方法,其特征在于,所述对所述图像特征序列进行局部池化处理,得到目标图像特征序列,包括:将所述图像特征序列中的图像特征按照图像采样顺序划分为多个子图像特征序列;对每个子图像特征序列进行平均池化处理,得到多个第一平均池化特征,所述多个第一平均池化特征构成目标图像特征序列。6.根据权利要求2所述的方法,其特征在于,所述对所述文本特征序列进行局部池化处理,得到目标文本特征序列,包括:
获取所述语音识别结果中的目标标点信息;根据所述目标标点信息将所述文本特征序列划分为多个子文本特征序列;对每个子文本特征序列进行平均池化处理,得到多个第二平均池化特征,所述多个第二平均池化特征构成目标文本特征序列。7.根据权利要求1所述的方法,其特征在于,所述根据所述目标特征序列确定所述目标多媒体数据的目标特征,包括:从所述目标特征序列中提取出所述类别令牌特征对应的目标类别令牌特征序列;对所述目标类别令牌特征序列进行第一次残差连接和归一化处理,得到第一过渡特征;采用预设的前馈神经网络对所述第一过渡特征进行处理,得到第二过渡特征;对所述第二过渡特征进行第二次残差连接和归一化处理,得到目标多媒体数据的目标特征。8.根据权利要求1所述的方法,其特征在于,所述对所述融合特征序列进行自注意力计算,得到目标特征序列,包括:对所述融合特征序列进行至少一次自注意力计算,得到至少一个子目标特征序列;对所述至少一个子目标特征序列进行拼接,得到目标特征序列。9.根据权利要求1所述的方法,其特征在于,所述方法应用于多媒体特征提取模型,所述多媒体特征提取模型包括图像特征提取模块、文本特征提取模块以及多维度特征融合模块,所述对目标多媒体数据进行图像特征提取,得到所述目标多媒体数据的图像特征序列,包括:基于所述多媒体特征提取模型的图像特征提取模块对所述目标多媒体数据进行特征提取,得到所述目标多媒体数据的图像特征序列;所述对目标多媒体数据中的音频数据进行语音识别,并对语音识别结果进行文本特征提取,得到所述目标多媒体数据的文本特征序列,包括:基于所述多媒体特征提取模型的文本特征提取模块对所述目标多媒体数据进行特征提取,得到所述目标多媒体数据的文本特征序列;所述将所述图像特征序列和所述文本特征序列进行融合,得到融合特征序列,对所述融合特征序列进行自注意力计算,得到目标特征序列,根据所...
【专利技术属性】
技术研发人员:王佑芯,孔伟杰,蒋杰,田上萱,王红法,刘威,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。