一种基于人工智能的端到端视频翻译方法、装置及介质制造方法及图纸

技术编号：43865963 阅读：21 留言：0更新日期：2024-12-31 18:52

本发明专利技术属于机器翻译技术领域，提供了一种基于人工智能的端到端视频翻译方法、装置及介质，其中，方法包括（1）处理用户上传的视频文件：提取视频文件中的原始音频文件，处理后得到人声音频文件和背景音乐音频文件；（2）生成可自定义的双语字幕文件：（3）基于步骤（2）中的双语字幕文件，进行语音合成，得到合成语音；（4）视频合成，生成最终的翻译后视频。本发明专利技术通过语音识别、机器翻译、语音合成、视频合成等技术实现端到端的视频翻译，实现完整的视频的自动译配，极大方便用户使用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器翻译，具体地说，是涉及一种基于人工智能的端到端视频翻译方法、装置及介质。

技术介绍

1、随着人工智能的发展和国际交流的增多，机器翻译显示了它的高效性，但是现有的机器翻译技术方案基本都体现在文本翻译上，在视频翻译方面还欠缺完整高质量的技术方案。

2、视频翻译主要包括两个方面，视频内容翻译和语音合成，现有视频翻译技术方案存在以下问题：

3、（1）视频翻译只支持字幕翻译或者语音合成，并没有实现端到端视频翻译。

4、（2）字幕翻译不支持编辑功能，用户无法自定义和校对字幕翻译内容。

5、（3）语音合成难度大，包括合成流畅度、音画同步、多角色配音等问题。

技术实现思路

1、本专利技术的目的在于提供一种基于人工智能的端到端视频翻译方法，以解决现有技术所存在的技术问题。

2、为了实现上述目的，本专利技术采取的技术方案如下：

3、一种基于人工智能的端到端视频翻译方法，包括以下步骤：

4、（1）处理用户上传的...

【技术保护点】

1.一种基于人工智能的端到端视频翻译方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于人工智能的端到端视频翻译方法，其特征在于，所述（1）中通过spleeter模型进行人声、背景音乐分离，同时使用MDX-Net、DeEcho-Aggressive模型对音频文件进行降噪、去混响处理，得到人声音频文件和背景音乐音频文件。

3.根据权利要求2所述的基于人工智能的端到端视频翻译方法，其特征在于，所述（2）中，生成的双语字幕文件返回给用户，用户可以对每条字幕文件中的所有内容进行修改，得到用户自定义的字幕文件。

4.根据权利要求3所述的基于人工智能的端...

【技术特征摘要】

1.一种基于人工智能的端到端视频翻译方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于人工智能的端到端视频翻译方法，其特征在于，所述（1）中通过spleeter模型进行人声、背景音乐分离，同时使用mdx-net、deecho-aggressive模型对音频文件进行降噪、去混响处理，得到人声音频文件和背景音乐音频文件。

4.根据权利要求3所述的基于人工智能的端到端视频翻译方法，其特征在于，所述（3）中，语音合成的具体方法如下：（31）使用tacotron 和 wavenet算法进行基础的语音合成，得到基础合成语音数据；（32）基于基础合成语音数据，使用vall-e算法模拟说话人的语调、情绪、口音；（33）使用vits算法进行声纹模拟；（34）使用hp2模型进行降噪处理，消除电音，得到最终的合成语音。

【专利技术属性】
技术研发人员：朱宪超，骆敏，霍展羽，李晶，
申请(专利权)人：四川语言桥信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人