【技术实现步骤摘要】
本专利技术属于机器翻译,具体地说,是涉及一种基于人工智能的端到端视频翻译方法、装置及介质。
技术介绍
1、随着人工智能的发展和国际交流的增多,机器翻译显示了它的高效性,但是现有的机器翻译技术方案基本都体现在文本翻译上,在视频翻译方面还欠缺完整高质量的技术方案。
2、视频翻译主要包括两个方面,视频内容翻译和语音合成,现有视频翻译技术方案存在以下问题:
3、(1)视频翻译只支持字幕翻译或者语音合成,并没有实现端到端视频翻译。
4、(2)字幕翻译不支持编辑功能,用户无法自定义和校对字幕翻译内容。
5、(3)语音合成难度大,包括合成流畅度、音画同步、多角色配音等问题。
技术实现思路
1、本专利技术的目的在于提供一种基于人工智能的端到端视频翻译方法,以解决现有技术所存在的技术问题。
2、为了实现上述目的,本专利技术采取的技术方案如下:
3、一种基于人工智能的端到端视频翻译方法,包括以下步骤:
4、(1)处理用户上传的
...【技术保护点】
1.一种基于人工智能的端到端视频翻译方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于人工智能的端到端视频翻译方法,其特征在于,所述(1)中通过spleeter模型进行人声、背景音乐分离,同时使用MDX-Net、DeEcho-Aggressive模型对音频文件进行降噪、去混响处理,得到人声音频文件和背景音乐音频文件。
3.根据权利要求2所述的基于人工智能的端到端视频翻译方法,其特征在于,所述(2)中,生成的双语字幕文件返回给用户,用户可以对每条字幕文件中的所有内容进行修改,得到用户自定义的字幕文件。
4.根据权利要求3所
...【技术特征摘要】
1.一种基于人工智能的端到端视频翻译方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于人工智能的端到端视频翻译方法,其特征在于,所述(1)中通过spleeter模型进行人声、背景音乐分离,同时使用mdx-net、deecho-aggressive模型对音频文件进行降噪、去混响处理,得到人声音频文件和背景音乐音频文件。
3.根据权利要求2所述的基于人工智能的端到端视频翻译方法,其特征在于,所述(2)中,生成的双语字幕文件返回给用户,用户可以对每条字幕文件中的所有内容进行修改,得到用户自定义的字幕文件。
4.根据权利要求3所述的基于人工智能的端到端视频翻译方法,其特征在于,所述(3)中,语音合成的具体方法如下:(31)使用tacotron 和 wavenet算法进行基础的语音合成,得到基础合成语音数据;(32)基于基础合成语音数据,使用vall-e算法模拟说话人的语调、情绪、口音;(33)使用vits算法进行声纹模拟;(34)使用hp2模型进行降噪处理,消除电音,得到最终的合成语音。
【专利技术属性】
技术研发人员:朱宪超,骆敏,霍展羽,李晶,
申请(专利权)人:四川语言桥信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。