数字人视频的字幕添加方法、装置、设备和存储介质制造方法及图纸

技术编号：37701691 阅读：29 留言：0更新日期：2023-06-01 23:47

本申请涉及一种数字人视频的字幕添加方法、装置、设备和存储介质。涉及人工智能技术领域。该方法包括：根据原始文本，生成数字人视频，其中，原始文本包括至少两个第一文本段；根据数字人视频中各图像帧的数字人唇部特征，对数字人视频进行分段，得到具有时间戳的至少两个音频片段；对具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段；根据原始文本和各音频片段对应的具有时间戳的第二文本段，为数字人视频添加字幕。本申请提高了分段后的音频片段对应的第二文本段与原始文本中的第一文本段之间的文本匹配度，提高了第一文本段时间戳添加的精准性，保证了为数字人视频添加字幕的精准性。保证了为数字人视频添加字幕的精准性。保证了为数字人视频添加字幕的精准性。

全部详细技术资料下载

【技术实现步骤摘要】
数字人视频的字幕添加方法、装置、设备和存储介质

[0001]本申请涉及人工智能
，特别是涉及一种数字人视频的字幕添加方法、装置、设备和存储介质。

技术介绍

[0002]随着音视频技术的发展，数字人视频越来越受到用户的喜爱。在生成数字人视频的过程中，为数字人视频添加字幕成为生成数字人视频的过程中必不可少的重要环节。
[0003]目前，为数字人视频添加字幕的方法为：将文本输入数字人引擎，通过数字人引擎内的从文本到语音(TTS，Text To Speech)组件自动生成音频，并利用开源计算机程序(FFMpeg，Fast Forward Mpeg)将文本叠加到视频上方，进而，得到添加字幕后的数字人视频。然而，由于TTS自动生成的音频，无法确认每个音频内容对应的文本，因此，将文本直接叠加到视频上方，存在音频的内容与文本内容不匹配的问题，进而，会影响用户对数字人视频的观看体验。
[0004]因此，如何精确的为数字人视频添加字幕，是目前亟需解决的技术问题。

技术实现思路

[0005]基于此，有必要针对...

【技术保护点】

【技术特征摘要】
1.一种数字人视频的字幕添加方法，其特征在于，所述方法包括：根据原始文本，生成数字人视频，其中，所述原始文本包括至少两个第一文本段；根据所述数字人视频中各图像帧的数字人唇部特征，对所述数字人视频进行分段，得到具有时间戳的至少两个音频片段；对所述具有时间戳的至少两个音频片段进行文本识别，得到各音频片段对应的具有时间戳的第二文本段；根据所述原始文本和各音频片段对应的具有时间戳的第二文本段，为所述数字人视频添加字幕。2.根据权利要求1所述的方法，其特征在于，所述根据所述数字人视频中各图像帧的数字人唇部特征，对所述数字人视频进行分段，包括：根据所述数字人视频中各图像帧的数字人唇部闭合情况，确定各图像帧的数字人唇部特征；其中，所述数字人唇部特征包括唇部闭合特征和唇部张开特征；从唇部闭合特征对应的图像帧中，确定分段帧；根据所述分段帧，对所述数字人视频进行分段。3.根据权利要求2所述的方法，其特征在于，所述从唇部闭合特征对应的图像帧中，确定分段帧，包括：根据唇部闭合特征对应的图像帧的连续性，将所述唇部闭合特征对应的图像帧划分为至少一个候选分段集合；根据各候选分段集合中包含的图像帧的个数，从所述各候选分段集合中确定至少一个目标分段集合；从每一目标分段集合包含的图像帧中，选择一个分段帧。4.根据权利要求1
‑
3任意一项所述的方法，其特征在于，所述根据所述数字人视频中各图像帧的数字人唇部特征，对所述数字人视频进行分段，得到具有时间戳的至少两个音频片段，包括：根据所述数字人视频中各图像帧的数字人唇部特征，以及所述数字人视频中音频数据的音素间隔，对所述数字人视频进行分段，得到具有时间戳的至少两个音频片段。5.根据权利要求1
‑
3中任意一项所述的方法，其特征在于，所述对所述具有时间戳的至少两个音频片段...

【专利技术属性】
技术研发人员：李峰，罗涛，李德强，杨刚，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人