多样化视频评论生成方法、系统、设备及存储介质技术方案

技术编号:33500281 阅读:18 留言:0更新日期:2022-05-19 01:10
本发明专利技术公开了一种多样化视频评论生成方法、系统、设备及存储介质,针对当前视频评论生成模型所生成评论片面单一的问题,从情感多样性方面出发,引入了情感类别权重进行标注,借鉴变分自编码器的思想,建模控制情感隐向量以引导情感可控的多样化视频评论生成,可以实现高质量的实时视频评论生成,能够增强用户的交流体验。流体验。流体验。

【技术实现步骤摘要】
多样化视频评论生成方法、系统、设备及存储介质


[0001]本专利技术涉及视频评论生成
,尤其涉及一种多样化视频评论生成方法、系统、设备及存储介质。

技术介绍

[0002]随着时代的发展,视频弹幕系统陆续登陆了BiliBili、爱奇艺、优酷等热门视频平台。弹幕系统的广泛应用,创建了用户与视频之间的双向交流模式,增强了用户在视频观看过程中的实时参与感。视频的实时弹幕可以提供更丰富的观点角度,引起用户的关注与讨论,增强用户的交流体验。因此,实现高质量的实时视频评论(弹幕)生成,具有重大的应用价值。
[0003]目前的实时视频评论生成方法多采用传统的端到端模型,结合视频片段与邻近弹幕,生成实时评论。然而,遵循评论的生成逻辑,对于同一视频片段,受到评论者观点角度、感情倾向、思维模式的影响,评论呈现出多样化的特点。当前的实时视频评论生成方法,多只针对评论的质量进行优化,却忽略了评论的多样性特征,只生成单一的视频评论。对于同一个视频片段及邻近评论输入,作为Ground Truth(标注信息)的参考评论往往包含多种类型,模型生成单一的评论不仅不利于性能评估和模型优化,也不符合评论的逻辑特性。

技术实现思路

[0004]本专利技术的目的是提供一种多样化视频评论生成方法、系统、设备及存储介质,实现了可控情感倾向的多样化视频评论生成。
[0005]本专利技术的目的是通过以下技术方案实现的:一种多样化视频评论生成方法,包括:利用当前时刻的视频帧图像及其若干最邻近视频帧图像构造视频帧图像集合,提取当前时刻的视频帧图像中的评论做为参考评论,提取所有最邻近视频帧图像中的评论构成评论文本;从所述视频帧图像集合中提取视觉特征,结合所述视觉特征从所述评论文本中提取文本特征,以及结合参考评论对应的情感类别权重,生成情感隐向量,并编码为情感隐向量编码特征;将输入的词汇,依次与之前时间步的生成词汇、所述视觉特征、文本特征及情感隐向量编码特征进行交互,获得当前时间步的词汇概率分布,根据当前时间步的词汇概率分布确定当前时间步的生成词汇,综合所有时间步的生成词汇构成当前时刻的视频评论;其中,所述输入的词汇为参考评论中的词汇或者之前时间步的生成词汇中的词汇。
[0006]一种多样化视频评论生成系统,包括:信息获取单元,用于利用当前时刻的视频帧图像及其若干最邻近视频帧图像构造视频帧图像集合,提取当前时刻的视频帧图像中的评论做为参考评论,提取所有最邻近视频帧图像中的评论构成评论文本;
视觉编码器,用于从所述视频帧图像集合中提取视觉特征;文本编码器,用于结合所述视觉特征从所述评论文本中提取文本特征;隐向量编码器,用于结合参考评论对应的情感类别权重,生成情感隐向量,并编码为情感隐向量编码特征;评论解码器,用于将输入的词汇,依次与之前时间步的生成词汇、所述视觉特征、文本特征及情感隐向量编码特征进行交互,获得当前时间步的词汇概率分布;其中,所述输入的词汇为参考评论中的词汇或者之前时间步的生成词汇中的词汇;视频评论生成单元,用于根据当前时间步的词汇概率分布确定当前时间步的生成词汇,综合所有时间步的生成词汇构成当前时刻的视频评论。
[0007]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0008]一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现前述的方法。
[0009]由上述本专利技术提供的技术方案可以看出,针对当前视频评论生成模型所生成评论片面单一的问题,从情感多样性方面出发,引入了情感类别权重作为情感标注,借鉴变分自编码器的思想,建模控制情感隐向量以引导情感可控的多样化视频评论生成,可以实现高质量的实时视频评论生成,能够增强用户的交流体验。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0011]图1为本专利技术实施例提供的一种多样化视频评论生成方法的流程图;图2为本专利技术实施例提供的一种多样化视频评论生成模型的整体结构示意图;图3为本专利技术实施例提供的一种多样化视频评论生成系统的示意图;图4为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0012]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0013]首先对本文中可能使用的术语进行如下说明:术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公
知的其它技术特征要素。
[0014]下面对本专利技术所提供的一种多样化视频评论生成方法、系统、设备及存储介质进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
[0015]实施例一如图1所示,一种多样化视频评论生成方法,主要包括如下步骤:步骤1、利用当前时刻的视频帧图像及其若干最邻近视频帧图像构造视频帧图像集合,提取当前时刻的视频帧图像中的评论做为参考评论,提取所有最邻近视频帧图像中的评论构成评论文本。
[0016]步骤2、从所述视频帧图像集合中提取视觉特征,结合所述视觉特征从所述评论文本中提取文本特征,以及结合参考评论对应的情感类别权重,生成情感隐向量,并编码为情感隐向量编码特征。
[0017]步骤3、将输入的词汇,依次与之前时间步的生成词汇、所述视觉特征、文本特征及情感隐向量编码特征进行交互,获得当前时间步的词汇概率分布,根据当前时间步的词汇概率分布确定当前时间步的生成词汇,综合所有时间步的生成词汇构成当前时刻的视频评论;其中,所述输入的词汇为参考评论中的词汇或者之前时间步的生成词汇中的词汇。
[0018]本专利技术实施例上述方案中,从所述视频帧图像集合中提取视觉特征通过视觉编码器实现;结合所述视觉特征从所述评论文本中提取文本特征通过文本编码器实现;结合参考评论获取相应的情感类别权重,生成情感隐向量,并编码为情感隐向量编码特征通过隐向量编码器实现;将输入的词汇,依次与之前时间步的生成词汇、所述视觉特征、文本特征及情感隐向量编码特征进行交互,根据获得的当前时间步的词汇概率分布通过评论解码器实现。由上述视觉编本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多样化视频评论生成方法,其特征在于,包括:利用当前时刻的视频帧图像及其若干最邻近视频帧图像构造视频帧图像集合,提取当前时刻的视频帧图像中的评论做为参考评论,提取所有最邻近视频帧图像中的评论构成评论文本;从所述视频帧图像集合中提取视觉特征,结合所述视觉特征从所述评论文本中提取文本特征,以及结合参考评论对应的情感类别权重,生成情感隐向量,并编码为情感隐向量编码特征;将输入的词汇,依次与之前时间步的生成词汇、所述视觉特征、文本特征及情感隐向量编码特征进行交互,获得当前时间步的词汇概率分布,根据当前时间步的词汇概率分布确定当前时间步的生成词汇,综合所有时间步的生成词汇构成当前时刻的视频评论;其中,所述输入的词汇为参考评论中的词汇或者之前时间步的生成词汇中的词汇。2.根据权利要求1所述的一种多样化视频评论生成方法,其特征在于,从所述视频帧图像集合中提取视觉特征通过视觉编码器实现;结合所述视觉特征从所述评论文本中提取文本特征通过文本编码器实现;结合参考评论对应的情感类别权重,生成情感隐向量,并编码为情感隐向量编码特征通过隐向量编码器实现;将输入的词汇,依次与之前时间步的生成词汇、所述视觉特征、文本特征及情感隐向量编码特征进行交互,获得当前时间步的词汇概率分布通过评论解码器实现。3.根据权利要求2所述的一种多样化视频评论生成方法,其特征在于,所述视觉编码器、文本编码器、隐向量编码器与评论解码器构成多样化视频评论生成模型,训练阶段,多样化视频评论生成模型的目标函数L表示为:L = E
q(z|F, e)
[log p(|z, F, e )]
ꢀ−ꢀ
D
KL
[q(z|, F, e), p(z|F, e)]其中,z表示通过隐向量编码器获得的情感隐向量,F表示视频帧图像集合,e表示评论文本对应的词嵌入向量集合,表示当前时刻的视频评论;p(|z, F, e )表示以情感隐向量z,视频帧图像集合F以及评论文本对应的词嵌入向量集合e作为条件时,生成当前时刻的视频评论的概率分布;E
q(z| F, e)
[.]表示求取关于q(z| F, e)的数学期望,q(z| F, e)表示以视频帧图像集合F以及评论文本对应的词嵌入向量e作为条件的情感隐向量z的概率分布;q(z|, F, e)表示以当前时刻的视频评论,视频帧图像集合F以及评论文本对应的词嵌入向量集合e作为条件时,情感隐向量z的概率分布;p(z|F, e)表示以视频帧图像集合F以及评论文本对应的词嵌入向量集合e作为条件时,情感隐向量z的概率分布,D
KL
表示计算KL距离。4.根据权利要求1或2或3所述的一种多样化视频评论生成方法,其特征在于,从所述视频帧图像集合中提取视觉特征包括:使用包含卷积神经网络与第一Transformer模型的视觉编码器从所述视频帧图像集合中提取视觉特征;将视频帧图像集合记为F= {F1, F2,

, F
J
},其中,F
j
表示第j个视频帧图像,j=1,2,

,J,J表示视频帧图像数目;每一视频帧图像对应一个时刻,当前时刻的视频帧图像为F1,F2,

, F
J
为与当前时刻的视频帧图像F1最邻近的J

1个视频帧图像;通过卷积神经网络提取每一个视频帧图像的特征,表示为:
V
j = CNN(F
j
)上式中,CNN表示卷积神经网络,V
j
表示提取的第j个视频帧图像F
j
的特征;记视频帧图像集合F对应的特征集合V = {V1, V2,

, V
J
},通过第一Transformer模型对视频帧图像集合F对应的特征集合V进行编码处理,表示为:W
j
=FNN
F
(MultiHead

Atten
F
(V
j
,V,V ) )上式中,MultiHead

Atten
F
与FNN
F
分别表示所述第一Transformer模型中的多头注意力模块与全连接前馈网络;W
j
表示编码处理得到的第j个视频帧图像的视觉特征;将视频帧图像集合F的视觉特征记为W
F
= {W1, W2,

, W
J
}。5.根据权利要求1或2或3所述的一种多样化视频评论生成方法,其特征在于,所述结合所述视觉特征从所述评论文本中提取文本特征包括:使用包含第一线性编码层与第二Transformer模型的文本编码器结合所述视觉特征从所述评论文本提取文本特征;其中,通过第一线性编码层对所述评论文本进行线性编码,获得对应的词嵌入向量集合e = {e1, e2,

, e
M
},其中,e
m
表示评论文本中的第m个词汇的词嵌入向量,m=1,2,

,M ,M为评论文本词汇总数;所述第二Transformer模型包括两个多头注意力模块与一个全连接前馈网络,通过第一个多头注意力模块MultiHead

Atten
e1
对词嵌入向量集合e进行处理,再通过第二个多头注意力模块MultiHead

Atten
e2
与全连接前馈网络FNN
e
将第一个多头注意力模块的处理结果与所述视觉特征进行交互,得到文本特征,处理过程表示为:e
m

= MultiHead

Atten
e1
(e
m
,e,e)E
m
=FNN
e
(MultiHead

Atten
e2
(e
m

, W
F
,W
F
) )其中,e
m

表示第一个多头注意力模块对第m个词汇的词嵌入向量e
m
的处理结果,W
F
表示视觉特征,E
m
表示对应于第m个词汇的文本特征;将所述评论文本的文本特征记为W
e = {E1, E2,

, E
M
}。6.根据权利要求1或2或3所述的一种多样化视频评论生成方法,其特征在于,所述结合参考评论对应的情感类别权重,生成情感隐向量,并编码为情感隐向量编码特征包括:通过对所述参考评论进行情感分析确定情感类别权重,通过隐向量编码器结合参考评论、文本特征与情感类别权重生成情感隐向量,并编码为情感隐向量编码特征;其中,将情感隐向量的概率分布p(z|c,W
e
)建模为使用情感类别权重c
k
加权的混合高斯分布模型,表示为:其中,c
k
表示第k个情感类别权重,K表示情感类别权重的数目,c表示情感类别权重集合,c={c
k
}
K
,表示第k个高斯分布模型,与分别表示建模定义的高斯分布模型的均值与方差,I表示标准单位矩阵,W
e
表示文本特征;z表示情感隐向量;所述隐向量编码器包括:两个线性编码...

【专利技术属性】
技术研发人员:毛震东张勇东符凤仪方山城
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1