System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 字幕的生成方法、装置、电子设备及介质制造方法及图纸_技高网

字幕的生成方法、装置、电子设备及介质制造方法及图纸

技术编号:40391783 阅读:3 留言:0更新日期:2024-02-20 22:22
本申请公开了一种字幕的生成方法、装置、电子设备及介质。通过应用本申请的技术方案,可以通过风格化控制模块辅助已有的图像字幕生成模型来为各个图像生成一个具备特定风格类别的字幕内容。具体来说,一方面可以通过风格控制模块的风格因子控制字幕生成模型来为图像选择一个更具有特定风格特征的词汇。以达到为不同用户输出其偏爱程度更高的字幕内容的目的。另一方面通过流利度因子来计算预测单词和前文已预测得到的词汇的相似性,并以此选择重复程度较低的单词,从而实现降低字幕出现重复单词的可能性,提升句子的流利度。

【技术实现步骤摘要】

本申请中涉及视频数据处理技术,尤其是一种字幕的生成方法、装置、电子设备及介质


技术介绍

1、图像字幕是一个在自然语言处理和计算机视觉交叉方向的基础任务。随着生成式模型的崛起,人们开始关注生成特定风格的图像字幕。风格化的图像字幕任务的本质是给定一张图片,以使字幕生成模型据此生成一个带有特定风格的可以概括这幅图的文本。

2、然而,现有的风格化的图像字幕生成工作主要通过预先对某一固定风格类别的样本进行强化学习和对比学习来完成,且需要对模型进行多次训练才能生成目标风格的字幕。可以理解的,这种字幕生成方式显得比较单一。


技术实现思路

1、本申请实施例提供一种字幕的生成方法、装置、电子设备及介质,本申请实施例用于解决相关技术中存在的,字幕生成方式的风格类别比较单一进而影响用户观看体验的问题。

2、其中,根据本申请实施例的一个方面,提供的一种字幕的生成方法,应用于包含插入式风格控制模块的字幕生成模型中,所述方法包括:

3、获取所述字幕生成模型对待处理图像在当前时刻预测得到的候选词集合,以及,获取所述字幕生成模型在第一历史时段预测得到的,所述候选词集合对应的至少一个前缀词;

4、利用所述插入式风格控制模块,从候选词集合中选取出具备目标风格,且重复率低于预设标准的目标词;

5、将所述至少一个前缀词和所述目标词的组合,作为所述待处理图像的目标字幕内容。

6、可选地,在基于本申请上述方法的另一个实施例中,所述利用所述插入式风格控制模块,从候选词集合中选取出具备目标风格,且重复率低于预设标准的目标词,包括:

7、利用所述插入式风格控制模块,计算所述候选词集合中各个候选词的风格因子,所述风格因子用于表征候选词所属的风格与所述目标风格的贴近度;以及,

8、利用所述插入式风格控制模块,计算所述候选词集合中各个候选词的流利度因子,所述流利度因子用于表征候选词与历史词的重复度,所述历史词为所述字幕生成模型在第二历史时段内预测得到的词;

9、基于各个候选词的所述风格因子与所述流利度因子,确定所述目标词。

10、可选地,在基于本申请上述方法的另一个实施例中,所述利用所述插入式风格控制模块,计算所述候选词集合中各个候选词的风格因子,包括:

11、将所述前缀词与各个候选词输入到所述插入式风格控制模块的文本风格分类器中,以使所述文本风格分类器识别各个候选词对应的风格分数;

12、将所述风格分数作为候选词对应的风格因子。

13、可选地,在基于本申请上述方法的另一个实施例中,所述利用所述插入式风格控制模块,计算所述候选词集合中各个候选词的流利度因子,包括:

14、将所述前缀词与所述候选词集合中的任意一个候选词进行组合,得到多个待比较组合;

15、将每个待比较组合分别与历史词进行相似度比较,确定每个待比较组合与各个历史词的相似度值;

16、基于所述相似度值,确定各个候选词的流利度分数;

17、将所述流利度分数作为候选词对应的流利度因子。

18、可选地,在基于本申请上述方法的另一个实施例中,所述基于各个候选词的所述风格因子与所述流利度因子,确定所述目标词,包括:

19、获取所述风格因子对应的第一权重系数,以及所述流利度因子对应的第二权重系数;

20、基于所述第一权重系数与所述第二权重系数,计算各个候选词在风格因子与流利度因子之间的综合得分;

21、将综合得分最高的候选词作为所述目标词。

22、可选地,在基于本申请上述方法的另一个实施例中,所述将所述至少一个前缀词和所述目标词的组合,作为目标字幕内容,包括:

23、将所述前缀词和所述目标词依序进行组合后,输入到所述字幕生成模型的解码器中,得到具备所述目标风格的目标字幕内容。

24、其中,根据本申请实施例的又一个方面,提供的一种字幕的生成装置,应用于包含插入式风格控制模块的字幕生成模型中,所述装置包括:

25、获取模块,被设置为获取所述字幕生成模型对待处理图像在当前时刻预测得到的候选词集合,以及,获取所述字幕生成模型在第一历史时段预测得到的,所述候选词集合对应的至少一个前缀词;

26、选取模块,被设置为利用所述插入式风格控制模块,从候选词集合中选取出具备目标风格,且重复率低于预设标准的目标词;

27、生成模块,被设置为将所述至少一个前缀词和所述目标词的组合,作为所述待处理图像的目标字幕内容。

28、根据本申请实施例的又一个方面,提供的一种电子设备,包括:

29、存储器,用于存储可执行指令;以及

30、显示器,用于与所述存储器执行所述可执行指令从而完成上述任一所述字幕的生成方法的操作。

31、根据本申请实施例的还一个方面,提供的一种计算设备可读存储介质,用于存储计算设备可读取的指令,所述指令被执行时执行上述任一所述字幕的生成方法的操作。

32、本申请中,可以获取字幕生成模型对待处理图像在当前时刻预测得到的候选词集合,以及,获取字幕生成模型在第一历史时段预测得到的,候选词集合对应的至少一个前缀词;利用插入式风格控制模块,从候选词集合中选取出具备目标风格,且重复率低于预设标准的目标词;将至少一个前缀词和目标词的组合,作为待处理图像的目标字幕内容。

33、通过应用本申请的技术方案,可以通过风格化控制模块辅助已有的图像字幕生成模型来为各个图像生成一个具备特定风格类别的字幕内容。具体来说,一方面可以通过风格控制模块的风格因子控制字幕生成模型来为图像选择一个更具有特定风格特征的词汇。以达到为不同用户输出其偏爱程度更高的字幕内容的目的。另一方面通过流利度因子来计算预测单词和前文已预测得到的词汇的相似性,并以此选择重复程度较低的单词,从而实现降低字幕出现重复单词的可能性,提升句子的流利度。

34、以下利用多个实施例,对本申请的技术方案做进一步的详细描述。

本文档来自技高网...

【技术保护点】

1.一种字幕的生成方法,其特征在于,应用于包含插入式风格控制模块的字幕生成模型中,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述利用所述插入式风格控制模块,从候选词集合中选取出具备目标风格,且重复率低于预设标准的目标词,包括:

3.如权利要求2所述的方法,其特征在于,所述利用所述插入式风格控制模块,计算所述候选词集合中各个候选词的风格因子,包括:

4.如权利要求2所述的方法,其特征在于,所述利用所述插入式风格控制模块,计算所述候选词集合中各个候选词的流利度因子,包括:

5.如权利要求2所述的方法,其特征在于,所述基于各个候选词的所述风格因子与所述流利度因子,确定所述目标词,包括:

6.如权利要求1所述的方法,其特征在于,所述将所述至少一个前缀词和所述目标词的组合,作为目标字幕内容,包括:

7.一种字幕的生成装置,其特征在于,应用于包含插入式风格控制模块的字幕生成模型中,所述装置包括:

8.一种电子设备,其特征在于,包括:

9.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-6中任一所述字幕的生成方法的操作。

...

【技术特征摘要】

1.一种字幕的生成方法,其特征在于,应用于包含插入式风格控制模块的字幕生成模型中,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述利用所述插入式风格控制模块,从候选词集合中选取出具备目标风格,且重复率低于预设标准的目标词,包括:

3.如权利要求2所述的方法,其特征在于,所述利用所述插入式风格控制模块,计算所述候选词集合中各个候选词的风格因子,包括:

4.如权利要求2所述的方法,其特征在于,所述利用所述插入式风格控制模块,计算所述候选词集合中各个候选词的流利度因子,包括:

5....

【专利技术属性】
技术研发人员:马占宇梁孔明徐迈王杰郑一啸
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1