基于多模态特征融合的信息推荐方法、装置及处理器制造方法及图纸

技术编号:32784860 阅读:12 留言:0更新日期:2022-03-23 19:44
本申请实施例提供一种基于多模态特征融合的信息推荐方法、装置及处理器,属于人工智能技术领域。方法包括:获取目标对象的音视频数据及个性化信息;依据音视频数据提取目标对象的多模态特征信息,多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息;基于多模态特征信息及个性化信息向目标对象推荐对应的目标信息。本申请通过获取用户的音视频数据并依据获取的音视频数据进行多模态特征的提取,基于结合用户的图像特征及语音特征,能够有效加强用户的动态表征能力,从而克服用户的静态属性特征较少导致无法准确识别用户真实意图的不利影响。用户真实意图的不利影响。用户真实意图的不利影响。

【技术实现步骤摘要】
基于多模态特征融合的信息推荐方法、装置及处理器


[0001]本申请涉及人工智能
,具体涉及一种基于多模态特征融合的信息推荐方法、一种基于多模态特征融合的信息推荐装置及一种处理器。

技术介绍

[0002]目前的信息推荐方式主要是利用用户的静态属性及历史行为,基于大数据和人工智能技术构建的推荐算法模型来实现对用户的信息推荐,例如广告推荐、产品推荐等。但是基于用户的静态属性及历史行为对用户进行信息推荐存在以下问题:当用户的静态属性特征较少及用户的历史行为不丰富时,构建的推荐算法模型所需的样本特征数据较少,无法准确刻画用户的真实购买意图或兴趣点,进而无法准确的为用户进行相关信息的推荐。

技术实现思路

[0003]本申请实施例的目的是提供一种基于多模态特征融合的信息推荐方法、一种基于多模态特征融合的信息推荐装置及一种处理器。
[0004]为了实现上述目的,本申请第一方面提供一种基于多模态特征融合的信息推荐方法,包括:
[0005]获取目标对象的音视频数据及个性化信息;
[0006]依据所述音视频数据提取所述目标对象的多模态特征信息,所述多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;
[0007]获取各信息的属性特征,基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。
[0008]可选地,依据所述音视频数据提取所述目标对象的多模态特征信息,包括:
[0009]提取所述音视频数据的图像帧数据及音频数据;
[0010]提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息;
[0011]所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调、帧能量以及共振峰频率及其带宽。
[0012]可选地,提取所述音视频数据的图像帧数据及音频数据,包括:将所述音视频数据分割为N个子音视频数据,提取所述子音视频数据的子图像帧数据及子音频数据;
[0013]提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息,包括:
[0014]对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号;
[0015]对所述图像帧序列的每一帧图像数据进行特征提取,得到所述图像帧序列的图像特征信息,并提取所述语音信号的语音信号特征;
[0016]基于对所述语音信号特征进行语音识别得到所述语音信号对应的文本特征信息。
[0017]可选地,对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号,包括:
[0018]以设定时间步长作为帧长对所述子音频数据进行分帧处理,得到n帧语音信号;
[0019]以所述设定时间步长对所述子图像帧数据进行分帧处理,确定每一帧语音信号对应的子图像帧序列;
[0020]针对每一子图像帧序列,选择性提取所述子图像帧序列中的图像数据,得到当前语音信号对应的图像帧序列。
[0021]可选地,选择性提取所述子图像帧序列中的图像数据,包括:
[0022]从所述子图像帧序列的第一帧图像数据开始,以设定帧间隔依次提取所述子图像帧序列中的图像数据。
[0023]可选地,选择性提取所述子图像帧序列中的图像数据,包括:
[0024]依次提取所述子图像帧序列中的第一帧图像数据、中间帧图像数据及最后一帧图像数据;
[0025]当所述子图像帧序列中的图像数据的数量为奇数时,所述中间帧图像数据为第(m+1)/2帧图像数据;
[0026]当所述子图像帧序列中的图像数据的数量为偶数时,所述中间帧图像数据为第m/2帧图像数据;
[0027]其中,m为所述子图像帧序列中的图像数据的数量。
[0028]可选地,所述个性化信息包括:所述目标对象的行为信息及所述目标对象的画像信息;所述基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息,包括:
[0029]以所述语音信号特征、所述图像特征信息及所述文本特征信息为输入,经多模态预训练模型得到多模态融合特征信息,所述多模态融合特征信息为所述语音信号特征、所述图像特征信息及所述文本特征信息的相互关联的融合表示;
[0030]依据所述多模态融合特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。
[0031]可选地,依据所述多模态融合特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息,包括:
[0032]将所述多模态融合特征信息、所述目标对象的行为信息及所述目标对象的画像信息进行特征拼接,得到目标对象的表征向量特征;
[0033]以所述目标对象的表征向量特征及每一信息的属性特征为输入,经预训练的双塔模型计算所述目标对象的表征向量特征与当前信息的关联度得分,将所有信息的关联度得分由高到低进行排序,以关联度得分前N%的信息作为目标信息。
[0034]本申请第二方面提供一种基于多模态特征融合的信息推荐装置,包括:
[0035]数据获取模块,被配置为获取目标对象的音视频数据、个性化信息及各信息的属性特征;
[0036]特征提取模块,被配置为依据所述音视频数据提取所述目标对象的多模态特征信息,所述多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像
特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;
[0037]推荐模块,被配置为基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。
[0038]本申请第三方面提供一种处理器,被配置成执行上述的基于多模态特征融合的信息推荐方法。
[0039]本申请第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上述的基于多模态特征融合的信息推荐方法。
[0040]本申请第五方面提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的基于多模态特征融合的信息推荐方法。
[0041]通过上述技术方案,本申请通过获取用户的音视频数据并依据获取的音视频数据进行多模态特征的提取,基于结合用户的图像特征及语音特征,能够有效加强用户的动态表征能力,从而克服用户的静态属性特征较少导致无法准确识别用户真实意图的不利影响。
[0042]本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0043]附图是用来提供对本申请实施例的进一步理解,并且构成说明书的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态特征融合的信息推荐方法,其特征在于,包括:获取目标对象的音视频数据及个性化信息;依据所述音视频数据提取所述目标对象的多模态特征信息,所述多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;获取各信息的属性特征,基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。2.根据权利要求1所述的基于多模态特征融合的信息推荐方法,其特征在于,依据所述音视频数据提取所述目标对象的多模态特征信息,包括:提取所述音视频数据的图像帧数据及音频数据;提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息;所述语音信号特征信息还包括帧能量以及共振峰频率及其带宽。3.根据权利要求2所述的基于多模态特征融合的信息推荐方法,其特征在于,提取所述音视频数据的图像帧数据及音频数据,包括:将所述音视频数据分割为N个子音视频数据,提取所述子音视频数据的子图像帧数据及子音频数据;提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息,包括:对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号;对所述图像帧序列的每一帧图像数据进行特征提取,得到所述图像帧序列的图像特征信息,并提取所述语音信号的语音信号特征;基于对所述语音信号特征进行语音识别得到所述语音信号对应的文本特征信息。4.根据权利要求3所述的基于多模态特征融合的信息推荐方法,其特征在于,对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号,包括:以设定时间步长作为帧长对所述子音频数据进行分帧处理,得到n帧语音信号;以所述设定时间步长对所述子图像帧数据进行分帧处理,确定每一帧语音信号对应的子图像帧序列;针对每一子图像帧序列,选择性提取所述子图像帧序列中的图像数据,得到当前语音信号对应的图像帧序列。5.根据权利要求4所述的基于多模态特征融合的信息推荐方法,其特征在于,选择性提取所述子图像帧序列中的图像数据,包括:从所述子图像帧序列的第一帧图像数据开始,以设定帧间隔依次提取所述子图像帧序列中的图像数据。6.根据权利要求4所述的基于多模态特征融合的信息推荐方法,其特征在于,选择性提取所述子图像帧序列中的图像数据,包括:依次提取所述子图像帧序列中的第一帧图像数据、中间帧图像数据及最后一帧图像数据;当所述子图像帧序列中的...

【专利技术属性】
技术研发人员:李宗珂
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1