多样化视频评论生成方法、系统、设备及存储介质技术方案

技术编号：33500281 阅读：18 留言：0更新日期：2022-05-19 01:10

本发明专利技术公开了一种多样化视频评论生成方法、系统、设备及存储介质，针对当前视频评论生成模型所生成评论片面单一的问题，从情感多样性方面出发，引入了情感类别权重进行标注，借鉴变分自编码器的思想，建模控制情感隐向量以引导情感可控的多样化视频评论生成，可以实现高质量的实时视频评论生成，能够增强用户的交流体验。流体验。流体验。

全部详细技术资料下载

【技术实现步骤摘要】
多样化视频评论生成方法、系统、设备及存储介质

[0001]本专利技术涉及视频评论生成
，尤其涉及一种多样化视频评论生成方法、系统、设备及存储介质。

技术介绍

[0002]随着时代的发展，视频弹幕系统陆续登陆了BiliBili、爱奇艺、优酷等热门视频平台。弹幕系统的广泛应用，创建了用户与视频之间的双向交流模式，增强了用户在视频观看过程中的实时参与感。视频的实时弹幕可以提供更丰富的观点角度，引起用户的关注与讨论，增强用户的交流体验。因此，实现高质量的实时视频评论（弹幕）生成，具有重大的应用价值。
[0003]目前的实时视频评论生成方法多采用传统的端到端模型，结合视频片段与邻近弹幕，生成实时评论。然而，遵循评论的生成逻辑，对于同一视频片段，受到评论者观点角度、感情倾向、思维模式的影响，评论呈现出多样化的特点。当前的实时视频评论生成方法，多只针对评论的质量进行优化，却忽略了评论的多样性特征，只生成单一的视频评论。对于同一个视频片段及邻近评论输入，作为Ground Truth（标注信息）的参考评论往往包含多种类型，模型生成单一的评论不仅不利于性能评估和模型优化，也不符合评论的逻辑特性。

技术实现思路

[0004]本专利技术的目的是提供一种多样化视频评论生成方法、系统、设备及存储介质，实现了可控情感倾向的多样化视频评论生成。
[0005]本专利技术的目的是通过以下技术方案实现的：一种多样化视频评论生成方法，包括：利用当前时刻的视频帧图像及其若干最邻近视频帧图像构造视频帧图像集合，提取当前时刻...

【技术保护点】

【技术特征摘要】
1.一种多样化视频评论生成方法，其特征在于，包括：利用当前时刻的视频帧图像及其若干最邻近视频帧图像构造视频帧图像集合，提取当前时刻的视频帧图像中的评论做为参考评论，提取所有最邻近视频帧图像中的评论构成评论文本；从所述视频帧图像集合中提取视觉特征，结合所述视觉特征从所述评论文本中提取文本特征，以及结合参考评论对应的情感类别权重，生成情感隐向量，并编码为情感隐向量编码特征；将输入的词汇，依次与之前时间步的生成词汇、所述视觉特征、文本特征及情感隐向量编码特征进行交互，获得当前时间步的词汇概率分布，根据当前时间步的词汇概率分布确定当前时间步的生成词汇，综合所有时间步的生成词汇构成当前时刻的视频评论；其中，所述输入的词汇为参考评论中的词汇或者之前时间步的生成词汇中的词汇。2.根据权利要求1所述的一种多样化视频评论生成方法，其特征在于，从所述视频帧图像集合中提取视觉特征通过视觉编码器实现；结合所述视觉特征从所述评论文本中提取文本特征通过文本编码器实现；结合参考评论对应的情感类别权重，生成情感隐向量，并编码为情感隐向量编码特征通过隐向量编码器实现；将输入的词汇，依次与之前时间步的生成词汇、所述视觉特征、文本特征及情感隐向量编码特征进行交互，获得当前时间步的词汇概率分布通过评论解码器实现。3.根据权利要求2所述的一种多样化视频评论生成方法，其特征在于，所述视觉编码器、文本编码器、隐向量编码器与评论解码器构成多样化视频评论生成模型，训练阶段，多样化视频评论生成模型的目标函数L表示为：L = E
q(z|F, e)
[log p(|z, F, e )]
ꢀ−ꢀ
D
KL
[q(z|, F, e), p(z|F, e)]其中，z表示通过隐向量编码器获得的情感隐向量，F表示视频帧图像集合，e表示评论文本对应的词嵌入向量集合，表示当前时刻的视频评论；p(|z, F, e )表示以情感隐向量z，视频帧图像集合F以及评论文本对应的词嵌入向量集合e作为条件时，生成当前时刻的视频评论的概率分布；E
q(z| F, e)
[.]表示求取关于q(z| F, e)的数学期望，q(z| F, e)表示以视频帧图像集合F以及评论文本对应的词嵌入向量e作为条件的情感隐向量z的概率分布；q(z|, F, e)表示以当前时刻的视频评论，视频帧图像集合F以及评论文本对应的词嵌入向量集合e作为条件时，情感隐向量z的概率分布；p(z|F, e)表示以视频帧图像集合F以及评论文本对应的词嵌入向量集合e作为条件时，情感隐向量z的概率分布，D
KL
表示计算KL距离。4.根据权利要求1或2或3所述的一种多样化视频评论生成方法，其特征在于，从所述视频帧图像集合中提取视觉特征包括：使用包含卷积神经网络与第一Transformer模型的视觉编码器从所述视频帧图像集合中提取视觉特征；将视频帧图像集合记为F= {F1, F2,
…
, F
J
}，其中，F
j
表示第j个视频帧图像，j=1,2,
…
,J，J表示视频帧图像数目；每一视频帧图像对应一个时刻，当前时刻的视频帧图像为F1，F2,
…
, F
J
为与当前时刻的视频帧图像F1最邻近的J
‑
1个视频帧图像；通过卷积神经网络提取每一个视频帧图像的特征，表示为：
V
j = CNN(F
j
)上式中，CNN表示卷积神经网络，V
j
表示提取的第j个视频帧图像F
j
的特征；记视频帧图像集合F对应的特征集合V = {V1, V2,
…
, V
J
}，通过第一Transformer模型对视频帧图像集合F对应的特征集合V进行编码处理，表示为：W
j
=FNN
F
(MultiHead
‑
Atten
F
(V
j
，V，V ) )上式中，MultiHead
‑
Atten
F
与FNN
F
分别表示所述第一Transformer模型中的多头注意力模块与全连接前馈网络；W
j
表示编码处理得到的第j个视频帧图像的视觉特征；将视频帧图像集合F的视觉特征记为W
F
= {W1, W2,
…
, W
J
}。5.根据权利要求1或2或3所述的一种多样化视频评论生成方法，其特征在于，所述结合所述视觉特征从所述评论文本中提取文本特征包括：使用包含第一线性编码层与第二Transformer模型的文本编码器结合所述视觉特征从所述评论文本提取文本特征；其中，通过第一线性编码层对所述评论文本进行线性编码，获得对应的词嵌入向量集合e = {e1, e2,
…
, e
M
}，其中，e
m
表示评论文本中的第m个词汇的词嵌入向量，m=1,2,
…
,M ，M为评论文本词汇总数；所述第二Transformer模型包括两个多头注意力模块与一个全连接前馈网络，通过第一个多头注意力模块MultiHead
‑
Atten
e1
对词嵌入向量集合e进行处理，再通过第二个多头注意力模块MultiHead
‑
Atten
e2
与全连接前馈网络FNN
e
将第一个多头注意力模块的处理结果与所述视觉特征进行交互，得到文本特征，处理过程表示为：e
m
’
= MultiHead
‑
Atten
e1
(e
m
，e，e)E
m
=FNN
e
(MultiHead
‑
Atten
e2
(e
m
’
， W
F
，W
F
) )其中，e
m
’
表示第一个多头注意力模块对第m个词汇的词嵌入向量e
m
的处理结果，W
F
表示视觉特征，E
m
表示对应于第m个词汇的文本特征；将所述评论文本的文本特征记为W
e = {E1, E2,
…
, E
M
}。6.根据权利要求1或2或3所述的一种多样化视频评论生成方法，其特征在于，所述结合参考评论对应的情感类别权重，生成情感隐向量，并编码为情感隐向量编码特征包括：通过对所述参考评论进行情感分析确定情感类别权重，通过隐向量编码器结合参考评论、文本特征与情感类别权重生成情感隐向量，并编码为情感隐向量编码特征；其中，将情感隐向量的概率分布p(z|c,W
e
)建模为使用情感类别权重c
k
加权的混合高斯分布模型，表示为：其中，c
k
表示第k个情感类别权重，K表示情感类别权重的数目，c表示情感类别权重集合，c={c
k
}
K
，表示第k个高斯分布模型，与分别表示建模定义的高斯分布模型的均值与方差，I表示标准单位矩阵，W
e
表示文本特征；z表示情感隐向量；所述隐向量编码器包括：两个线性编码...

【专利技术属性】
技术研发人员：毛震东，张勇东，符凤仪，方山城，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人