System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 交互数据的预测方法、装置、电子设备及存储介质制造方法及图纸_技高网

交互数据的预测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40536390 阅读:7 留言:0更新日期:2024-03-01 13:58
本公开关于一种交互数据的预测方法、装置、电子设备及存储介质,该方法包括:将时间窗口内的每一直播帧所分别对应的直播图像、评论文本和语音识别文本进行多模态特征的融合,得到多模态特征,所述时间窗口是当前直播帧和所述当前直播帧之前的多个历史直播帧所对应的时间段;基于第一多头注意力机制,将所述直播帧所对应的第一账户特征和所述多模态特征进行特征编码,得到编码特征;基于第二多头注意力机制,对所述编码特征进行解码,得到解码输出特征,所述第二多头注意力机制的每个注意力机制中包括因果注意力掩码;对所述解码输出特征进行全连接处理,获得所述当前直播帧的交互数据值。本公开实现了帧级别的交互数据预测。

【技术实现步骤摘要】

本公开涉及互联网,尤其涉及一种交互数据的预测方法、装置、电子设备及存储介质


技术介绍

1、直播平台作为一种新兴的在线互动方式,在近年来迅速发展。越来越多的用户在直播平台上进行娱乐消遣,并可以与主播进行互动。由于主播数量庞大且直播内容不断变化,准确的推荐算法与直播交互数据(如点击率)预测算法对于提升用户体验至关重要。

2、相关技术中,对于交互数据预测的模型主要分为两类,一类是基于id特征的模型,另一类是基于多模态特征的模型。其中,基于id特征的模型主要目标是捕捉更高层次的特征交互过程,而大部分基于多模态特征的模型主要关注的是视频的交互数据预测任务。基于id特征的模型只能将用户id作为输入,而无法捕捉直播内容的变化对于用户行为的影响。基于多模态特征的模型主要聚焦于视频级别的交互数据预测,而无法实现直播场景下帧级别的交互数据预测任务。

3、作为一种新兴的社交媒体形式,直播推荐领域的相关研究层出不穷。目前的研究通常将主播或观众视为条目(item),从而设计推荐系统来预测用户(user)和条目之间的交互关系。这些方法可以大致分为两种类型:基于过滤的方法和基于深度学习的方法。但是,这些方法仅关注条目级别上主播和观众之间的交互预测问题,也无法实现帧级别的交互数据预测。


技术实现思路

1、本公开提供一种交互数据的预测方法、装置、电子设备及存储介质,以至少解决相关技术中无法实现直播场景下帧级别的交互数据预测的问题。本公开的技术方案如下:

2、根据本公开实施例的第一方面,提供一种交互数据的预测方法,包括:

3、通过交互数据预测模型的特征融合层将时间窗口内的每一直播帧所分别对应的直播图像、评论文本和语音识别文本进行多模态特征的融合,得到多模态特征,所述时间窗口是当前直播帧和所述当前直播帧之前的多个历史直播帧所对应的时间段;

4、通过所述交互数据预测模型的感知器,基于第一多头注意力机制,将所述直播帧所对应的第一账户特征和所述多模态特征进行特征编码,得到编码特征;

5、通过所述交互数据预测模型的因果解码器,基于第二多头注意力机制,对所述编码特征进行解码,得到解码输出特征,所述第二多头注意力机制的每个注意力机制中包括因果注意力掩码;

6、通过所述交互数据预测模型的全连接层对所述解码输出特征进行全连接处理,得到所述当前直播帧的交互数据值。

7、可选的,所述特征融合层包括第一多层感知机和第二多层感知机;

8、所述通过交互数据预测模型的特征融合层将窗口内的每一直播帧所分别对应的直播图像、评论文本和语音识别文本进行多模态特征的融合,得到多模态特征,包括:

9、针对每一所述直播帧,通过预训练的图像特征提取网络对所述直播图像进行特征提取,得到初始视觉特征;

10、通过文本特征提取网络对所述评论文本和所述语音识别结果进行特征提取,得到初始文本特征;

11、通过所述第一多层感知机将所述初始视觉特征映射为第一目标维度的目标视觉特征;

12、通过所述第二多层感知机将所述初始文本特征映射为所述第一目标维度的目标文本特征;

13、将所述目标视觉特征和所述目标文本特征拼接为所述直播帧的多模态特征。

14、可选的,所述通过所述交互数据预测模型的感知器基于第一多头注意力机制,将所述直播帧所对应的第一账户特征和所述多模态特征进行特征编码,得到编码特征,包括:

15、根据所述第一账户特征,确定所述第一多头注意力机制的第一初始查询向量,并根据所述第一账户特征和所述多模态特征,确定所述第一多头注意力机制的第一初始键向量和第一初始值向量;

16、通过所述感知器中的线性层分别将所述第一初始查询向量、所述第一初始键向量和所述第一初始值向量降维为第二目标维度的输入查询向量、输入键向量和输入值向量;

17、通过所述第一多头注意力机制对所述输入查询向量、所述输入键向量和所述输入值向量进行特征编码,得到所述编码特征。

18、可选的,所述通过所述第一多头注意力机制对所述输入查询向量、所述输入键向量和所述输入值向量进行特征编码,得到所述编码特征,包括:

19、通过所述第一多头注意力机制根据所述输入查询向量和输入键向量确定第一注意力权重,根据所述第一注意力权重和所述输入值向量,确定中间编码特征;

20、通过带残差链接的第一前馈网络对所述中间编码特征进行处理,得到第一更新查询向量,并根据所述第一更新查询向量和所述输入键向量确定第一更新键向量,根据所述第一更新查询向量和所述输入值向量确定第一更新值向量;

21、根据第一目标循环次数,循环通过第一多头注意力机制和带残差链接的第一前馈网络对第一更新查询向量、第一更新键向量和第一更新值向量进行处理,将最后的输出作为所述编码特征。

22、可选的,所述通过所述交互数据预测模型的因果解码器,基于第二多头注意力机制,对所述编码特征进行解码,得到解码输出特征,包括:

23、根据所述编码特征,确定所述第二多头注意力机制的第二初始查询向量、第二初始键向量和第二初始值向量;

24、通过所述第二多头注意力机制对所述第二初始查询向量、第二初始键向量和所述第二初始值向量进行解码,得到所述解码输出特征。

25、可选的,所述通过所述第二多头注意力机制对所述第二初始查询向量、所述第二初始键向量和所述第二初始值向量进行解码,得到所述解码输出特征,包括:

26、通过所述第二多头注意力机制根据所述第二初始查询向量、所述第二初始键向量和所述因果注意力掩码确定第二注意力权重,根据所述第二注意力权重和所述第二初始值向量确定中间输出特征;

27、通过带残差链接的第二前馈网络对所述中间输出特征进行处理,得到第二更新查询向量,并根据所述第二更新查询向量和所述第二初始键向量确定第二更新键向量,根据所述第二更新查询向量和所述第二初始值向量确定第二更新值向量;

28、根据第二目标循环次数,循环通过第二多头注意力机制和带残差链接的第二前馈网络对第二更新查询向量、第二更新键向量和第二更新值向量进行处理,将最后的输出作为所述解码输出特征。

29、可选的,所述交互数据预测模型的训练过程包括:

30、通过初始交互数据预测模型的特征融合层将样本直播视频的每一视频帧所分别对应的样本直播图像、样本评论文本和样本语音识别文本进行多模态特征的融合,得到样本多模态特征,所述样本直播视频中视频帧的数量与所述时间窗口内直播帧的数量相同;

31、通过所述初始交互数据预测模型的感知器,基于第一多头注意力机制,将所述样本直播图像所对应的第一账户特征和所述样本多模态特征进行特征编码,得到样本编码特征;

32、通过所述初始交互数据预测模型的因果解码器,基于第二多头注意力机制,对所述样本编码特征进行解码,得到样本解码输出特征;

33、通过初本文档来自技高网...

【技术保护点】

1.一种交互数据的预测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述特征融合层包括第一多层感知机和第二多层感知机;

3.根据权利要求1所述的方法,其特征在于,所述通过所述交互数据预测模型的感知器,基于第一多头注意力机制,将所述直播帧所对应的第一账户特征和所述多模态特征进行特征编码,得到编码特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述通过所述第一多头注意力机制对所述输入查询向量、所述输入键向量和所述输入值向量进行特征编码,得到所述编码特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述通过所述交互数据预测模型的因果解码器,基于第二多头注意力机制,对所述编码特征进行解码,得到解码输出特征,包括:

6.根据权利要求5所述的方法,其特征在于,所述通过所述第二多头注意力机制对所述第二初始查询向量、所述第二初始键向量和所述第二初始值向量进行解码,得到所述解码输出特征,包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,所述交互数据预测模型的训练过程包括:

<p>8.根据权利要求7所述的方法,其特征在于,所述样本多模态特征包括样本视觉特征和样本文本特征;

9.根据权利要求8所述的方法,其特征在于,所述根据所述每一视频帧的样本视觉特征和样本文本特征,确定所述初始交互数据预测模型的对比学习损失函数值,包括:

10.根据权利要求8所述的方法,其特征在于,所述根据每两个视频帧分别对应的交互数据预测值和交互数据标注值,确定所述初始交互数据预测模型的配对损失函数值,包括:

11.一种交互数据的预测装置,其特征在于,包括:

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至10中任一项所述的交互数据的预测方法。

...

【技术特征摘要】

1.一种交互数据的预测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述特征融合层包括第一多层感知机和第二多层感知机;

3.根据权利要求1所述的方法,其特征在于,所述通过所述交互数据预测模型的感知器,基于第一多头注意力机制,将所述直播帧所对应的第一账户特征和所述多模态特征进行特征编码,得到编码特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述通过所述第一多头注意力机制对所述输入查询向量、所述输入键向量和所述输入值向量进行特征编码,得到所述编码特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述通过所述交互数据预测模型的因果解码器,基于第二多头注意力机制,对所述编码特征进行解码,得到解码输出特征,包括:

6.根据权利要求5所述的方法,其特征在于,所述通过所述第二多头注意力机制对所述第二初始查询向量、所述第二初始键向量和所述第二初始值向量进行解码,得到所...

【专利技术属性】
技术研发人员:邓嘉鑫
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1