【技术实现步骤摘要】
本专利技术涉及语音处理,特别是一种实时语音翻译合成的音画字幕对齐方法及系统。
技术介绍
1、随着互联网与视频直播技术越来越完善,直播被越来越广泛的应用于工作与学习中,尤其在教育领域,线上直播课程变得普及,而观看直播的用户可能来自不同国家,使用不同语言。全球化的线上课程需求激增,跨国用户面临语言壁垒问题,现有解决方案存在缺陷:
2、语音翻译缺失与延迟问题:当前支持语音翻译的方案存在较大音频延迟,导致翻译语音与讲师口型、课件切换严重脱节,教育直播中教师操作实验演示时,语音讲解与翻译音频的时间差会直接导致学生理解错位。
3、音画字幕同步机制薄弱:传统直播架构采用单一时间轴对齐策略,无法适应多语言场景下的动态延迟。当系统进行语音识别(asr)、机器翻译(mt)、语音合成(tts)的级联处理时,各环节累积延迟误差可达3-5秒。
4、因此,本专利技术提供一种实时语音翻译合成的音画字幕对齐方法及系统,来解决现有技术存在的语音翻译缺失与延迟,以及音画字幕同步机制薄弱的技术问题。
技术实现思
<本文档来自技高网...【技术保护点】
1.一种实时语音翻译合成的音画字幕对齐方法,用于在直播情境下,对实时语音翻译合成的音画字幕进行字幕对齐,其特征在于,包括步骤:
2.根据权利要求1所述的一种实时语音翻译合成的音画字幕对齐方法,其特征在于,在步骤1中,通过如下具体步骤执行:
3.根据权利要求1所述的一种实时语音翻译合成的音画字幕对齐方法,其特征在于,在步骤2中,通过如下具体步骤执行:
4.根据权利要求1所述的一种实时语音翻译合成的音画字幕对齐方法,其特征在于,在步骤3中,通过如下具体步骤执行:
5.根据权利要求1所述的一种实时语音翻译合成的音画字幕对齐方法
...【技术特征摘要】
1.一种实时语音翻译合成的音画字幕对齐方法,用于在直播情境下,对实时语音翻译合成的音画字幕进行字幕对齐,其特征在于,包括步骤:
2.根据权利要求1所述的一种实时语音翻译合成的音画字幕对齐方法,其特征在于,在步骤1中,通过如下具体步骤执行:
3.根据权利要求1所述的一种实时语音翻译合成的音画字幕对齐方法,其特征在于,在步骤2中,通过如下具体步骤执行:
4.根据权利要求1所述的一种实时语音翻译合成的音画字幕对齐方法,其特征在于,在步骤3中,通过如下具体步骤执行:
5.根据权利要求1所述的一种实时语音翻译合成的音画字幕对齐方法,其特征在于,在步骤4中,通过如下具体步骤执行:
6.根据权利要求5所述的一种实时语...
【专利技术属性】
技术研发人员:王厚文,沈余银,余军,
申请(专利权)人:成都华栖云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。