【技术实现步骤摘要】
语音信息处理方法、装置和电子设备
[0001]本公开涉及人工智能
,尤其涉及一种语音信息处理方法、装置和电子设备。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]语音翻译(Speech Translation,ST)旨在将源语言语音翻译成目标语言文本,广泛应用于会议演讲、商务会议、跨境客服、海外旅行等各种场景。
[0004]传统的语音翻译模型通常先利用语音识别模型将语音转换为源语言的文字,再利用机器翻译模型将识别后的源语言文字翻译为目标语言。
[0005]近来,端到端翻译方法应用到了非流式语音翻译和流式翻译中。专利技术人发现在将端到端翻译方法应用到流式翻译的一些方案,是按照固定的时间对源端音频进行切片,每个语言切片视为一个翻译的口令,并应用于流式语音翻译。但真实环境中,语音长度往往是变长的,导致端到端语音翻译要么引入延迟、要么引起翻译错误。
技术实现思路
[0006]提供该公 ...
【技术保护点】
【技术特征摘要】
1.一种语音信息处理方法,包括:获取至少一帧待翻译语音信息的第一声学特征信息;在流式语音识别下,确定第一声学特征信息是否对应完整语义;响应于确定结果为是,对所述第一声学特征信息执行翻译操作,得到对应的翻译结果。2.根据权利要求1所述的方法,其中,所述获取至少一帧待翻译语音信息的第一声学特征信息包括:将至少一个帧待处理语音信息输入到预训练的声学模型,得到所述第一声学特征信息。3.根据权利要求2所述的方法,其中,所述声学模型包括:屏蔽式声学模型。4.根据权利要求1或2所述的方法,其中,所述在流式语音识别下,确定第一声学特征信息是否对应完整语义包括:将所述第一声学特征信息输入到预训练的预设语义识别模型,利用所述预设语义识别模型确定所述第一声学特征信息是否对应完整语义。5.根据权利要求4所述的方法,其中,所述预设语义识别模型包括连续整合发放模块。6.根据权利要求1所述的方法,其中,所述方法还包括:在非流式语音识别下,接到多帧待翻译语音信息直至检测到语音信息的输入结束指令,获取多帧待翻译语音信息的第二声学特征信息,对所述第二声学特征信息执行翻译操作,得到对应的翻译结果。7.根据权利要求1或6所述的方法,其中,所述翻译操作包括:将声学特征信息输入到预先训练的翻译模型,得到所述声学特征信息对应的翻译结果。8.一种语音信息处理模型,包括:声学模型、语义识别模型和翻译模型,其中,所述声学模型用于:在流式语音识别模式下,接收至少一帧待翻译语音信息,并提取所述至少一帧待翻译语音信息第一声学特征信息;所述语义识别模型用于:在流式语音识别模式下,接收所述至少一帧第一声学特征信息,并确定所述至少一帧第一声学特征信息是否对应完整语义;所述翻译模型用于在流式语音识别模式下确定所述第一声学特征信息的翻译结果。9.根据权利要求8所述的模型,其中,所述声学模型进一步用于:在非流式语音识别模式,接收多帧待翻译语音信息,至检测到语音信息的输入结束指令,并提取多帧待翻译语音信息的第二声学特征信息;所述语义识别模型进一步用于:在非流式语音识别模式,对第二声学特征信息进行压缩和对齐;所述翻译模型进一步用于:在非流式语音识别模式下确定第二声学特征信息的翻译结果。10.一种语音信息处理模型的训练方法,应用于权利要求8或9所述语音信息处理模型,所述语音信息处理模型包括声学模型、语义识别模型和翻译模型,所述方法包括:获取训练样本集,所述训练样本集包括多个训练样本对,训练样本对包括第一语言的原始语音信息和第二语言的所述原始语音信息对应的翻译结...
【专利技术属性】
技术研发人员:朱耀明,董倩倩,王明轩,李磊,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。