一种视频机器配音的方法、装置、设备及可读介质制造方法及图纸

技术编号:35455992 阅读:16 留言:0更新日期:2022-11-03 12:14
本发明专利技术公开了一种视频机器配音的方法,包括:从字幕文件中逐个读取每条字幕,分别对每条字幕进行TTS合成以得到对应的音频;计算每条字幕的字幕时长、字幕间隙和对应的音频的配音时长,并基于字幕时长、字幕间隙和配音时长分别判断每个字幕是否为音频重叠字幕;若是字幕为音频重叠字幕,则基于字幕时长、字幕间隙和配音时长计算音频重叠字幕的重叠率,并基于重叠率调整配音语速和/或视频显示时长,并基于配音语速对音频重叠字幕重新进行TTS合成以更新对应的音频和/或基于画面显示时长调整音频重叠字幕对应的视频;依次读取每条字幕对应的音频,并将音频插入到对应的视频节点中。本发明专利技术还公开了一种视频机器配音的装置、计算机设备和可读存储介质。设备和可读存储介质。设备和可读存储介质。

【技术实现步骤摘要】
一种视频机器配音的方法、装置、设备及可读介质


[0001]本专利技术是属于计算机
,特别是关于一种视频机器配音的方法、装置、设备及可读介质。

技术介绍

[0002]目前市面上对视频内容进行外语配音,大多采用纯人工的方式进行。翻译人员首先将文字翻译为外文配音稿,再交给配音导演、配音师进行配音。在这期间需要多次根据配音导演和配音师的要求进行改稿,来保证配音流畅的情况下声音与画面的准确匹配。纯人工配音的方式制作周期很长,需要翻译、配音师、录音师、混音师等几个工种配合,还需要专业设备支持,成本也非常高,无法满足快速发展的短视频行业的需求。
[0003]现有的根据文字自动完成配音的软件系统停留在TTS语音合成的初级阶段,无法解决多段文字转为语音后插入到视频中插入位置确定的问题。一般方法包括将语音内容转换成数字文本,再将数字文本翻译成另一种语言,最后将所翻译的文本合成到语音输出。然而,该方法无法解决语音转文字,文字翻译后的错误和不准确的问题;且翻译完的文本长度无法控制,当翻译后的文字长度远超过源语言文字后合成的语音会与下一句话重叠。
[0004]公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现思路

[0005]本专利技术的目的在于提供一种视频机器配音的方法、装置、设备及可读介质,其能够极大地节省配音时间与成本,提高机器配音的流畅度。
[0006]基于上述目的,本专利技术实施例的一方面提供了一种视频机器配音的方法,包括以下步骤:从字幕文件中逐个读取每条字幕,分别对每条所述字幕进行TTS合成以得到对应的音频;计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长,并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕;若是所述字幕为音频重叠字幕,则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率,并基于所述重叠率调整配音语速和/或视频显示时长,并基于所述配音语速对所述音频重叠字幕重新进行TTS合成以更新对应的音频和/或基于所述画面显示时长调整所述音频重叠字幕对应的视频;以及依次读取每条字幕对应的音频,并将所述音频插入到对应的视频节点中。
[0007]在一些实施方式中,方法还包括:通过循环神经网络将每条双语字幕的原文字幕和译文字幕转换为音素,基于所述原文字幕的音素数目和所述译文字幕的音素数目计算所述译文字幕的预估重叠率,并判断所述预估重叠率是否超过第一预设重叠率;若是所述预估重叠率超过第一预设重叠率,则对所述译文字幕进行重译;若是所述预估重叠率不超过第一预设重叠率,则将所述译文字幕记录到字幕文件中。
[0008]在一些实施方式中,通过循环神经网络将每条双语字幕的原文字幕和译文字幕转
换为音素包括:判断原文字幕/译文字幕是否为表意文字;若是原文字幕/译文字幕为表意文字,则将所述原文字幕/所述译文字幕转换为音标字母,再将所述音标字母转换为音素;基于所述原文字幕的音素数目和所述译文字幕的音素数目计算所述译文字幕的预估重叠率包括:读取并计算所述原文字幕结束时间与开始时间的差值,作为字幕时长,并计算所述原文字幕的音素数目与所述字幕时长的比值,作为语速,并计算所述译文字幕的音素数目与所述语速的乘积,作为预估译文字幕配音时长;读取并计算下一原文字幕的开始时间与本条原文字幕结束时间的差值,作为字幕间隙,并计算所述字幕时长与字幕间隙的和,作为配音时长阈值,并计算所述预估译文字幕配音时长与所述配音时长阈值的比值,作为所述译文字幕的预估重叠率;其中,所述第一预设重叠率为130%。
[0009]在一些实施方式中,计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长,并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕包括:依次读取并计算每条所述字幕的结束时间与开始时间的差值,作为字幕时长;读取并计算下一条字幕的开始时间与本条字幕结束时间的差值,作为字幕间隙;读取所述字幕对应的所述音频的配音时长,并判断所述字幕对应的配音时长是否大于所述字幕时长和所述字幕间隙的和;若是所述字幕对应的配音时长大于所述字幕时长和所述字幕间隙的和,则确认所述字幕为音频重叠字幕。
[0010]在一些实施方式中,若是所述字幕为音频重叠字幕,则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率,并基于所述重叠率调整配音语速和/或视频显示时长包括:若是所述字幕为音频重叠字幕,则基于所述音频重叠字幕预设范围内其他字幕的字幕间隙对所述音频重叠字幕进行调整,并重新计算调整后的所述音频重叠字幕的字幕时长和字幕间隙以重新判断调整后的所述音频重叠字幕是否仍为音频重叠字幕;若是调整后的所述音频重叠字幕仍为音频重叠字幕,则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述字幕的重叠率,并基于所述重叠率调整配音语速和/或视频显示时长。
[0011]在一些实施方式中,基于所述音频重叠字幕预设范围内其他字幕的字幕间隙对所述音频重叠字幕进行调整包括:根据从后往前的顺序找出所有音频重叠字幕,依次判断所述音频重叠字幕位置后读取预设范围内是否有其他字幕的字幕间隙;若是所述音频重叠字幕位置后读取预设时长内有其他字幕的字幕间隙,则将所述音频重叠字幕与所述其他字幕的字幕间隙之间的所述其他字幕向后移动,使其填满所述字幕间隙;其中,所述预设时长为30秒。
[0012]在一些实施方式中,基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率,并基于所述重叠率调整配音语速和/或视频显示时长,并基于所述配音语速对所述音频重叠字幕重新进行TTS合成以更新对应的音频和/或基于所述画面显示时长调整所述音频重叠字幕对应的视频包括:计算所述字幕时长与字幕间隙的和,作为配音时长阈值,计算所述配音时长与所述配音时长阈值的比值,作为所述音频重叠字幕的重叠率;判断所述重叠率是否大于第二预设重叠率;若是所述重叠率不大于第二预设重叠率,则将配音语速乘以所述重叠率作为新的配音语速,并基于所述新的配音语速对所述音频重叠字幕重新进行TTS合成以更新对应的音频;若是所述重叠率大于所述第二预设重叠率,则将视频显示时长乘以所述重叠率作为新的视频显示时长,并基于新的视频显示时长
调整所述音频重叠字幕对应视频画面和字幕时长;其中,所述第二预设重叠率为120%。
[0013]本专利技术实施例的另一方面,还提供了一种视频机器配音的装置,包括:TTS合成模块,配置用于从字幕文件中逐个读取每条字幕,分别对每条所述字幕进行TTS合成以得到对应的音频;音频重叠检测模块,配置用于计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长,并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕;消除重叠模块,配置用于若是所述字幕为音频重叠字幕,则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率,并基于所述重叠率调本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频机器配音的方法,其特征在于,包括以下步骤:从字幕文件中逐个读取每条字幕,分别对每条所述字幕进行TTS合成以得到对应的音频;计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长,并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕;若是所述字幕为音频重叠字幕,则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率,并基于所述重叠率调整配音语速和/或视频显示时长,并基于所述配音语速对所述音频重叠字幕重新进行TTS合成以更新对应的音频和/或基于所述画面显示时长调整所述音频重叠字幕对应的视频;以及依次读取每条字幕对应的音频,并将所述音频插入到对应的视频节点中。2.根据权利要求1所述的视频机器配音的方法,其特征在于,还包括:通过循环神经网络将每条双语字幕的原文字幕和译文字幕转换为音素,基于所述原文字幕的音素数目和所述译文字幕的音素数目计算所述译文字幕的预估重叠率,并判断所述预估重叠率是否超过第一预设重叠率;若是所述预估重叠率超过第一预设重叠率,则对所述译文字幕进行重译;若是所述预估重叠率不超过第一预设重叠率,则将所述译文字幕记录到字幕文件中。3.根据权利要求2所述的视频机器配音的方法,其特征在于,通过循环神经网络将每条双语字幕的原文字幕和译文字幕转换为音素包括:判断原文字幕/译文字幕是否为表意文字;若是原文字幕/译文字幕为表意文字,则将所述原文字幕/所述译文字幕转换为音标字母,再将所述音标字母转换为音素;基于所述原文字幕的音素数目和所述译文字幕的音素数目计算所述译文字幕的预估重叠率包括:读取并计算所述原文字幕结束时间与开始时间的差值,作为字幕时长,并计算所述原文字幕的音素数目与所述字幕时长的比值,作为语速,并计算所述译文字幕的音素数目与所述语速的乘积,作为预估译文字幕配音时长;读取并计算下一原文字幕的开始时间与本条原文字幕结束时间的差值,作为字幕间隙,并计算所述字幕时长与字幕间隙的和,作为配音时长阈值,并计算所述预估译文字幕配音时长与所述配音时长阈值的比值,作为所述译文字幕的预估重叠率;其中,所述第一预设重叠率为130%。4.根据权利要求1所述的视频机器配音的方法,其特征在于,计算每条所述字幕的字幕时长、字幕间隙和对应的所述音频的配音时长,并基于所述字幕时长、所述字幕间隙和所述配音时长分别判断每个所述字幕是否为音频重叠字幕包括:依次读取并计算每条所述字幕的结束时间与开始时间的差值,作为字幕时长;读取并计算下一条字幕的开始时间与本条字幕结束时间的差值,作为字幕间隙;读取所述字幕对应的所述音频的配音时长,并判断所述字幕对应的配音时长是否大于所述字幕时长和所述字幕间隙的和;若是所述字幕对应的配音时长大于所述字幕时长和所述字幕间隙的和,则确认所述字幕为音频重叠字幕。
5.根据权利要求1

4任意一项所述的视频机器配音的方法,其特征在于,若是所述字幕为音频重叠字幕,则基于所述字幕时长、所述字幕间隙和所述配音时长计算所述音频重叠字幕的重叠率,并基于所述重叠率调整配音语速和/或视频显示时长包括:若是所述字幕为音频重叠字幕,则基于所述音频重叠字幕预设范围内其他字幕的...

【专利技术属性】
技术研发人员:宋君王正航
申请(专利权)人:武汉简视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1