面向多模态应用的视频热门评论生成的方法及装置制造方法及图纸

技术编号：41286854 阅读：6 留言：0更新日期：2024-05-11 09:35

本发明专利技术公开的一种面向多模态应用的视频热门评论生成的方法，用于生成视频热门评论，本发明专利技术利用中文视频热门评论生成数据集HOTVCOM，包括视频标题、描述、字幕、音频内容、关键帧和互动信息；利用ComHeat的视频热门评论生成框架，本发明专利技术通过监督微调模型生成初步评论，并利用综合评估指标对初始评论进行更全面评估和排序，基于排序后的初始评论利用大语言模型训练奖励模型，有效地模拟了人类的偏好，并强化学习增强这些评论，提高生成评论的热度生成热门评论。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多模态的，具体涉及一种面向多模态应用的视频热门评论生成的方法及装置。

技术介绍

1、随着数字平台上视频内容的日益普及，视频评论在扩大视频影响力方面具有明显的重要性。特别是，“热门评论”有潜力吸引大量用户互动，从而显著提升视频的知名度，这对于产品营销和品牌建设至关重要。典型的热门评论通常符合特定的标准：获得更多的点赞和回复，与视频内容高度相关，并包含与观众产生共鸣的元素。

2、目前对于典型的热门评论，主要集中在生成描述性的评论(类似字幕)或视频实时的评论(即弹幕)。对于视频描述性的评论生成，有使用goal强调基于知识的视频描述生成(kgvc)，或者使用上下文注意力网络(canet)来进行丰富上下文的学习。与此同时，还有提供了改善描述性的评论相关性和多样性的独特框架，例如加权语义模型vmsg。对于视频实时的评论，graspsnooker和的说唱风格生成器是这一趋势的典型代表。还有些则针对长视频或者融合了视觉和文本上下文去生成实时评论。

3、虽然这些评论在一定程度上吸引了观众，但它们难以完全概括整个视频内容或促进更深入的互动。当旨在提高视频的曝光度时，这些实时互动可能不如真正的热门评论有影响力。此外，大多数工作主要集中在英文评论生成的方式，留下了中文热门评论生成领域的空白。另外，现有的工作主要利用rouge或点赞数作为评估指标。然而，这些指标不一定能够始终反映评论的真正互动程度。

技术实现思路

1、本实施例中一种根据利用综合指标评估初始评论并通过奖励

2、为了实现上述目的，本专利技术采用了如下技术方案：

3、一种面向多模态应用的视频热门评论生成的方法，用于生成目标视频的热门评论，其特征在于，包括以下步骤：

4、步骤s1，采集多个视频，并获取所述视频的文本信息和关键帧，形成数据集；

5、步骤s2，通过视觉语言模型提取每个所述视频的视觉特征；

6、步骤s3，利用所述文本信息以及对应的所述视觉特征所述对第一大语言模型进行监督微调，得到微调后的所述第一大语言模型作为评论生成模型，并利用所述评论生成模型生成每个所述视频的多个初始评论；

7、步骤s4，基于预定的综合评估指标对所述多个初始评论进行评分及排序，得到其排名序列；

8、步骤s5，利用所述排名序列对第二大语言模型进行训练，得到训练好的所述第二大语言模型作为奖励模型；

9、步骤s6，利用所述数据集以及所述奖励模型对所述评论生成模型进行强化训练，得到训练好的所述评论生成模型；

10、步骤s7，利用训练好的所述评论生成模型生成所述目标视频的所述热门评论。

11、优选地，所述步骤s4中，所述综合评估指标通过信息量分数、相关性分数、创造性分数和用户互动分数融合生成；利用所述综合评估指标对所述多个初始评论进行评分及排序，并得到所述多个初始评论中的前1％的所述初始评论的所述排名序列。

12、优选地，所述步骤s4中，所述综合评估指标通过以下子步骤融合生成所述初始评论的综合分数：

13、步骤s4-1：所述信息量分数i通过长度惩罚和词汇多样性来量化；

14、所述长度惩罚，表示为lp，用评论长度的适当性来量化；

15、所述词汇多样性，表示为vd，由评论的总二元组与独特二元组的比值量化，所述信息量分数的计算过程如下：

16、

17、其中，l表示给定评论的实际长度，lmin和lmax分别指定了评论长度的最佳界限(从1到50)；常数α，用于调整超出最佳长度的评论的惩罚；tn和un分别表示评论的总二元组和唯一二元组；和是可训练的权重；

18、步骤s4-2：所述相关性分数r通过关键词匹配程度和上下文匹配程度两个主要维度来量化评论与视频内容的一致性：

19、所述关键词匹配程度，表示为dk，是评论中与从预设的自然语言模型中提取的视频字幕中的关键词相符的单词比例

20、所述上下文匹配程度，表示为dc，为视频字幕和相应评论之间的余弦相似度；所述相关性分数的计算过程如下：

21、

22、其中，nx表示评论中与视频字幕中的关键词匹配的单词或短语的数量，nk是从视频字幕中用chatgpt提取的关键词的总数；

23、com和vid分别表示评论和相应视频的表示；和是可训练的权重；

24、步骤s4-3：所述创造性分数c提供了对评论独特性和新颖性的定量评估，

25、包括两个主要指标：修辞技巧分数，表示为sr，例如比喻和讽刺，以及网络热梗分数，表示为st；所述创造性分数的计算过程如下：

26、

27、其中，xr和xt分别表示评论中修辞技巧和网络热梗的出现次数，均由chatgpt计数；

28、和是可训练的权重；

29、采用sigmoid函数在[0，1]区间内调整sr和st；

30、步骤s4-4：所述用户互动分数u表示评论的用户互动水平，主要包括点赞和回复；所述用户互动分数的计算过程如下：

31、

32、其中，nl和nr分别表示评论中点赞和回复的数量；和也是可训练的权重；

33、采用sigmoid函数在[0，1]区间内调整u′；

34、步骤s4-5：将信息量分数、相关性分数、创造性分数和用户互动分数的计算评估得出初始评论的综合分数f定义为：

35、f＝wi×i+wr×r+wc×c+wu×u，

36、其中，wi、wr、wc和wu分别是分配给信息量分数、相关性分数、创造性分数和用户互动分数的可训练权重。

37、优选地，所述步骤s2中，每个所述视频的所述视觉特征包括所述关键帧的图像嵌入以及所述视频的所有所述关键帧的位置嵌入，通过视觉语言模型提取所述关键帧的所述图像嵌入，减小视频和评论之间的语义差距；通过所述视频的所有所述关键帧的位置嵌入来定义关键帧的所述图像嵌入的序列。

38、优选地，所述步骤s1中，所述视频采用时间倒序的方式进行采集，并根据主题进行分类，用于使所述第一大语言模型更好地理解所述数据集的上下文，生成的所述热门评论能够与所述主题呼应；

39、所述步骤s2中，从所述关键帧中提取视觉特征，用于保留所述视频中事件的重要性，表示为：

40、

41、其中，fk表示从第k个关键帧提取的特征，由视觉大模型提取，pk表示第k个关键帧的位置嵌入，s表示关键帧嵌入的序列，k表示视频的关键帧集合；

42、所述步骤s3中，监督微调如下所示：

43、所述文本信息，表示为t，被编码为稠密向量te；与此同时，通过全连接层，将表示为s的所述视觉特征进行变换，以确保与所述文本信息的文本维度的兼容性；将所述文本信息和所述视觉特征的模态通过线性加权融合，如下所示：<本文档来自技高网...

【技术保护点】

1.一种面向多模态应用的视频热门评论生成的方法，用于生成目标视频的热门评论，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

3.根据权利要求2所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

4.根据权利要求1所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

5.根据权利要求4所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

6.根据权利要求5所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

7.根据权利要求6所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

8.根据权利要求7所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

9.根据权利要求7所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

10.一种面向多模态应用的视频热门评论生成的装置，用于生成目标视频的热门评论，其特征在于，包括：

【技术特征摘要】

1.一种面向多模态应用的视频热门评论生成的方法，用于生成目标视频的热门评论，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

3.根据权利要求2所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

4.根据权利要求1所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

5.根据权利要求4所述的面向多模态应用的视频热门评论生成的方法，其特征在于：

【专利技术属性】
技术研发人员：陈昱妍，石庭豪，李直旭，肖仰华，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人