数字人视频的字幕添加方法、装置、设备和存储介质制造方法及图纸

技术编号:37701691 阅读:25 留言:0更新日期:2023-06-01 23:47
本申请涉及一种数字人视频的字幕添加方法、装置、设备和存储介质。涉及人工智能技术领域。该方法包括:根据原始文本,生成数字人视频,其中,原始文本包括至少两个第一文本段;根据数字人视频中各图像帧的数字人唇部特征,对数字人视频进行分段,得到具有时间戳的至少两个音频片段;对具有时间戳的至少两个音频片段进行文本识别,得到各音频片段对应的具有时间戳的第二文本段;根据原始文本和各音频片段对应的具有时间戳的第二文本段,为数字人视频添加字幕。本申请提高了分段后的音频片段对应的第二文本段与原始文本中的第一文本段之间的文本匹配度,提高了第一文本段时间戳添加的精准性,保证了为数字人视频添加字幕的精准性。保证了为数字人视频添加字幕的精准性。保证了为数字人视频添加字幕的精准性。

【技术实现步骤摘要】
数字人视频的字幕添加方法、装置、设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种数字人视频的字幕添加方法、装置、设备和存储介质。

技术介绍

[0002]随着音视频技术的发展,数字人视频越来越受到用户的喜爱。在生成数字人视频的过程中,为数字人视频添加字幕成为生成数字人视频的过程中必不可少的重要环节。
[0003]目前,为数字人视频添加字幕的方法为:将文本输入数字人引擎,通过数字人引擎内的从文本到语音(TTS,Text To Speech)组件自动生成音频,并利用开源计算机程序(FFMpeg,Fast Forward Mpeg)将文本叠加到视频上方,进而,得到添加字幕后的数字人视频。然而,由于TTS自动生成的音频,无法确认每个音频内容对应的文本,因此,将文本直接叠加到视频上方,存在音频的内容与文本内容不匹配的问题,进而,会影响用户对数字人视频的观看体验。
[0004]因此,如何精确的为数字人视频添加字幕,是目前亟需解决的技术问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种精确的数字人视频的字幕添加方法、装置、设备和存储介质。
[0006]第一方面,本申请提供了一种数字人视频的字幕添加方法,该方法包括:
[0007]根据原始文本,生成数字人视频,其中,原始文本包括至少两个第一文本段;
[0008]根据数字人视频中各图像帧的数字人唇部特征,对数字人视频进行分段,得到具有时间戳的至少两个音频片段;
[0009]对具有时间戳的至少两个音频片段进行文本识别,得到各音频片段对应的具有时间戳的第二文本段;
[0010]根据原始文本和各音频片段对应的具有时间戳的第二文本段,为数字人视频添加字幕。
[0011]在其中一个实施例中,根据数字人视频中各图像帧的数字人唇部特征,对数字人视频进行分段,包括:
[0012]根据数字人视频中各图像帧的数字人唇部闭合情况,确定各图像帧的数字人唇部特征;其中,数字人唇部特征包括唇部闭合特征和唇部张开特征;
[0013]从唇部闭合特征对应的图像帧中,确定分段帧;
[0014]根据分段帧,对数字人视频进行分段。
[0015]在其中一个实施例中,从唇部闭合特征对应的图像帧中,确定分段帧,包括:
[0016]根据唇部闭合特征对应的图像帧的连续性,将唇部闭合特征对应的图像帧划分为至少一个候选分段集合;
[0017]根据各候选分段集合中包含的图像帧的个数,从各候选分段集合中确定至少一个
目标分段集合;
[0018]从每一目标分段集合包含的图像帧中,选择一个分段帧。
[0019]在其中一个实施例中,根据数字人视频中各图像帧的数字人唇部特征,对数字人视频进行分段,得到具有时间戳的至少两个音频片段,包括:
[0020]根据数字人视频中各图像帧的数字人唇部特征,以及数字人视频中音频数据的音素间隔,对数字人视频进行分段,得到具有时间戳的至少两个音频片段。
[0021]在其中一个实施例中,对具有时间戳的至少两个音频片段进行文本识别,得到各音频片段对应的具有时间戳的第二文本段,包括:
[0022]通过至少两个音频识别器对具有时间戳的至少两个音频片段分别进行文本识别,得到每一音频识别器对各音频片段识别的具有时间戳的候选文本段;
[0023]根据不同音频识别器对同一音频片段识别的候选文本段的相似度,确定各音频片段对应的具有时间戳的第二文本段。
[0024]在其中一个实施例中,根据原始文本和各音频片段对应的具有时间戳的第二文本段,为数字人视频添加字幕,包括:
[0025]根据各音频片段对应的具有时间戳的第二文本段,确定原始文本中各第一文本段对应的时间戳;
[0026]根据各第一文本段和各第一文本段的时间戳,为数字人视频添加字幕。
[0027]第二方面,本申请还提供了一种数字人视频的字幕添加装置。该装置包括:
[0028]生成模块,用于根据原始文本,生成数字人视频,其中,原始文本包括至少两个第一文本段;
[0029]分段模块,用于根据数字人视频中各图像帧的数字人唇部特征,对数字人视频进行分段,得到具有时间戳的至少两个音频片段;
[0030]识别模块,用于对具有时间戳的至少两个音频片段进行文本识别,得到各音频片段对应的具有时间戳的第二文本段;
[0031]添加模块,用于根据原始文本和各音频片段对应的具有时间戳的第二文本段,为数字人视频添加字幕。
[0032]第三方面,本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行所述计算机程序时实现以下步骤:
[0033]根据原始文本,生成数字人视频,其中,原始文本包括至少两个第一文本段;
[0034]根据数字人视频中各图像帧的数字人唇部特征,对数字人视频进行分段,得到具有时间戳的至少两个音频片段;
[0035]对具有时间戳的至少两个音频片段进行文本识别,得到各音频片段对应的具有时间戳的第二文本段;
[0036]根据原始文本和各音频片段对应的具有时间戳的第二文本段,为数字人视频添加字幕。
[0037]第四方面,本申请还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0038]根据原始文本,生成数字人视频,其中,原始文本包括至少两个第一文本段;
[0039]根据数字人视频中各图像帧的数字人唇部特征,对数字人视频进行分段,得到具
有时间戳的至少两个音频片段;
[0040]对具有时间戳的至少两个音频片段进行文本识别,得到各音频片段对应的具有时间戳的第二文本段;
[0041]根据原始文本和各音频片段对应的具有时间戳的第二文本段,为数字人视频添加字幕。
[0042]第五方面,本申请还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0043]根据原始文本,生成数字人视频,其中,原始文本包括至少两个第一文本段;
[0044]根据数字人视频中各图像帧的数字人唇部特征,对数字人视频进行分段,得到具有时间戳的至少两个音频片段;
[0045]对具有时间戳的至少两个音频片段进行文本识别,得到各音频片段对应的具有时间戳的第二文本段;
[0046]根据原始文本和各音频片段对应的具有时间戳的第二文本段,为数字人视频添加字幕。
[0047]上述数字人视频的字幕添加方法、装置、设备和存储介质,首先,根据原始文本包括至少两个第一文本段,生成数字人视频;由于数字人唇部特征与文本和音频的断句方式相关,可以根据数字人视频中各图像帧的数字人唇部特征,对数字人视频进行精确分段,得到精确的具有时间戳的至少两个音频片段,并对具有时间戳的至少两个音频片段进行文本识别,得到每个音频片段对应的具有时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字人视频的字幕添加方法,其特征在于,所述方法包括:根据原始文本,生成数字人视频,其中,所述原始文本包括至少两个第一文本段;根据所述数字人视频中各图像帧的数字人唇部特征,对所述数字人视频进行分段,得到具有时间戳的至少两个音频片段;对所述具有时间戳的至少两个音频片段进行文本识别,得到各音频片段对应的具有时间戳的第二文本段;根据所述原始文本和各音频片段对应的具有时间戳的第二文本段,为所述数字人视频添加字幕。2.根据权利要求1所述的方法,其特征在于,所述根据所述数字人视频中各图像帧的数字人唇部特征,对所述数字人视频进行分段,包括:根据所述数字人视频中各图像帧的数字人唇部闭合情况,确定各图像帧的数字人唇部特征;其中,所述数字人唇部特征包括唇部闭合特征和唇部张开特征;从唇部闭合特征对应的图像帧中,确定分段帧;根据所述分段帧,对所述数字人视频进行分段。3.根据权利要求2所述的方法,其特征在于,所述从唇部闭合特征对应的图像帧中,确定分段帧,包括:根据唇部闭合特征对应的图像帧的连续性,将所述唇部闭合特征对应的图像帧划分为至少一个候选分段集合;根据各候选分段集合中包含的图像帧的个数,从所述各候选分段集合中确定至少一个目标分段集合;从每一目标分段集合包含的图像帧中,选择一个分段帧。4.根据权利要求1

3任意一项所述的方法,其特征在于,所述根据所述数字人视频中各图像帧的数字人唇部特征,对所述数字人视频进行分段,得到具有时间戳的至少两个音频片段,包括:根据所述数字人视频中各图像帧的数字人唇部特征,以及所述数字人视频中音频数据的音素间隔,对所述数字人视频进行分段,得到具有时间戳的至少两个音频片段。5.根据权利要求1

3中任意一项所述的方法,其特征在于,所述对所述具有时间戳的至少两个音频片段...

【专利技术属性】
技术研发人员:李峰罗涛李德强杨刚
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1