语音实时翻译方法、系统与可视化终端技术方案

技术编号:34269293 阅读:16 留言:0更新日期:2022-07-24 15:39
本发明专利技术提出语音实时翻译方法、系统与可视化终端,属于实时语音翻译与显示技术领域。方法包括S1:在监测到语音序列输入时开启目标语音序列识别进程;S2:识别到输入语音序列存在目标语音串时识别首个停顿点;S3:将首个停顿点之前的语音序列转换为文字序列;S4:基于文字序列生成摘要序列;S5:翻译摘要序列并显示。系统包括语音输入模块、语音串识别模块、语音转文本模块、摘要生成模块、文本翻译模块和文图显示模块。本发明专利技术还提出实现方法的可视化终端。本发明专利技术基于原始语音序列检测到的目标语音串生成摘要序列后才执行翻译显示,降低了语音翻译的数据量,能够在确保语音翻译实时性的同时维持重点内容的完整性和可读性。时维持重点内容的完整性和可读性。时维持重点内容的完整性和可读性。

Speech real-time translation method, system and visual terminal

【技术实现步骤摘要】
语音实时翻译方法、系统与可视化终端


[0001]本专利技术属于实时语音翻译与显示
,尤其涉及语音实时翻译方法、系统与可视化终端、实现所述方法的存储介质。

技术介绍

[0002]实时语音翻译,又称实时同声翻译,通过实时语音转写可将不限时长的音频流实时识别为文字。现有技术中,已有多家主流翻译软件,可实现实时语音翻译,甚至声称支持中文与英、日、俄、韩、法、西、越、等多语种互译,覆盖国际常用语种,广泛用于国际赛事直播、跨语种会议等场景。
[0003]中国专利技术专利公开文本CN114239613A提出一种实时语音翻译方法,根据当前时刻的原语种文本和历史时刻译文的一定长度的前缀,输出当前时刻的原语种文本所对应的译文,可以保证当前时刻的译文的一定长度的前缀与历史时刻译文的一定长度的前缀保持一致,从而可以有效缓解实时语音翻译中已输出的译文不稳定的问题。
[0004]然而,在实际应用中,不管是上述主流翻译软件还是已有的语音翻译方法,均是基于算法或者模型直接对原始的语音序列进行逐词逐句的完整翻译。当原始语音序列数据量较大时,翻译时间较长,并且翻译成本较高(许多翻译软件均是以数据量或者翻译时间计费)。
[0005]但是,专利技术人发现,在实际涉及语音交互和沟通的场合中,并不是所有的语音交互都是有效的记录。由于每个人交谈者的表达习惯不同,语音记录中不可避免的存在的一些对双方沟通来说无意义的语音序列,这些序列如果被省略也不影响沟通效率,因此不必要逐字逐句的原文转译;
[0006]在某些特殊场合,尤其是包含特定词汇、特定格式词汇的场合,例如化学领域、分子领域等场合的语音交流中,语音序列通常会包含大量的专业化学词汇。现有技术逐词逐句的原样语音转文本的转译方式,无法突出这些语音序列中的重点子序列,使得语音交互双方均无法快速、准确的吸收到重点内容,影响语音沟通效率。
[0007]与此相对应的是,交互双方可能更关注语音序列中的重点部分,希望对这部分重点目标序列进行识别并突出显示,从而得到更好的沟通效果。然而,现有技术并未考虑到这些问题。

技术实现思路

[0008]为解决上述技术问题,本专利技术提出一种语音实时翻译方法、系统与可视化终端、实现所述方法的存储介质。
[0009]在本专利技术的第一个方面,提出一种语音实时翻译方法,所述方法包括如下步骤:
[0010]S1:在监测到语音序列输入时,开启目标语音序列识别进程;
[0011]S2:在所述目标语音序列识别进程识别到所述输入语音序列存在目标语音串时,继续识别出所述输入语音序列在所述目标语音串之后的首个停顿点;
[0012]S3:将所述首个停顿点之前的语音序列转换为文字序列;
[0013]S4:基于所述文字序列生成摘要序列;
[0014]S5:翻译所述摘要序列并显示。
[0015]在本专利技术的技术方案中,所述输入的语音序列为第一语种的源语音序列;
[0016]所述目标语音串为预设的目标名词语音串,所述目标名词包括化学物质和/或化学反应式。
[0017]所述步骤S3将所述首个停顿点之前的语音序列转换为文字序列,具体包括:
[0018]将所述首个停顿点之前的第一语种的源语音序列转化为第一语种的源文本序列。
[0019]所述步骤S4基于所述文字序列生成摘要序列,具体包括:
[0020]所述文字序列包括目标文本序列和非目标文本序列;
[0021]所述目标文本序列是所述目标语音串对应的文字序列;
[0022]所述非目标文本序列是所述步骤S3中转换的所述文字序列中除所述目标文本序列之外的其他文字序列;
[0023]基于所述非目标文本序列生成待组合摘要序列;
[0024]将所述待组合摘要序列与所述目标文本序列进行语义组合,得到所述摘要序列。
[0025]所述第一语种的源文本序列包括所述目标语音串对应的目标文本序列;
[0026]所述步骤S4基于所述文字序列生成摘要序列具体包括:
[0027]基于所述第一语种的源文本序列生成第一语种的源文本摘要序列,所述源文本摘要序列保留所述目标文本序列;
[0028]所述步骤S5翻译所述摘要序列并显示,具体包括:
[0029]将所述第一语种的源文本摘要序列翻译为第二语种的输出文本序列,所述输出文本序列包括所述目标文本序列对应的第二语种的目标输出文本;
[0030]将目标文本序列对应的第二语种的目标输出文本以预定格式显示。
[0031]将目标文本序列对应的第二语种的目标输出文本以预定格式显示,具体包括:
[0032]将至少一个化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式以图片显示。
[0033]在本专利技术的第二个方面,提供一种语音实时翻译系统,所述系统包括语音输入模块、语音串识别模块、语音转文本模块、摘要生成模块、文本翻译模块和文图显示模块。
[0034]所述语音输入模块用于输入语音序列,所述输入的语音序列为第一源语种的语音序列;
[0035]所述语音串识别模块用于识别所述第一源语种的语音序列是否包含第一源语种的目标语音串;
[0036]所述语音转文本模块用于将第一源语种的语音序列转化为第一源语种的源文本序列;
[0037]所述摘要生成模块用于基于第一源语种的源文本序列生成第一源语种的摘要文本;
[0038]所述文本翻译模块用于将所述第一源语种的摘要文本翻译为第二目标语种的目标文本;
[0039]所述文图显示模块用于以预定图文格式显示所述第二目标语种的目标文本;
[0040]其中,所述目标语音串为预设的目标名词语音串,所述目标名词包括化学物质和/或化学反应式;
[0041]所述以预定图文格式显示所述第二目标语种的目标文本,具体包括:将至少一个化学物质对应的至少一个化学式和/或化学物质组合对应的化学反应式以图片显示。
[0042]所述系统还包括语音播报模块;
[0043]所述语音播报模块用于语音播报所述第二目标语种的目标文本。
[0044]所述系统还包括停顿点检测模块;
[0045]所述停顿点检测模块用于检测第一源语种的语音序列中的停顿点。
[0046]所述语音串识别模块连接所述停顿点监测模块;
[0047]当所述停顿点检测模块检测到所述第一源语种的语音序列的停顿点时,激活所述语音串识别模块。
[0048]在本专利技术的第三个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现第一个方面所述方法的步骤。
[0049]在本专利技术的第四个方面,提供一种可视化终端,所述可视化终端包含人机显示界面,所述人机显示界面连接存储器和处理器,所述处理器存储有计算机程序指令,通过处理器执行所述计算机程序指令,以实现第一个方面所述方法的步骤。
[0050]本专利技术基于原始语音序列检测到的目标语音串生成摘要序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音实时翻译方法,其特征在于,所述方法包括如下步骤:S1:在监测到语音序列输入时,开启目标语音序列识别进程;S2:在所述目标语音序列识别进程识别到输入语音序列存在目标语音串时,继续识别出所述输入语音序列在所述目标语音串之后的首个停顿点;S3:将所述首个停顿点之前的语音序列转换为文字序列;S4:基于所述文字序列生成摘要序列;S5:翻译所述摘要序列并显示。2.如权利要求1所述的一种语音实时翻译方法,其特征在于:所述输入的语音序列为第一语种的源语音序列;所述目标语音串为预设的目标名词语音串,所述目标名词包括化学物质和/或化学反应式;所述步骤S3将所述首个停顿点之前的语音序列转换为文字序列,具体包括:将所述首个停顿点之前的第一语种的源语音序列转化为第一语种的源文本序列。3.如权利要求1所述的一种语音实时翻译方法,其特征在于:所述步骤S4基于所述文字序列生成摘要序列,具体包括:所述文字序列包括目标文本序列和非目标文本序列;所述目标文本序列是所述目标语音串对应的文字序列;所述非目标文本序列是所述步骤S3中转换的所述文字序列中除所述目标文本序列之外的其他文字序列;基于所述非目标文本序列生成待组合摘要序列;将所述待组合摘要序列与所述目标文本序列进行语义组合,得到所述摘要序列。4.如权利要求2所述的一种语音实时翻译方法,其特征在于:所述第一语种的源文本序列包括所述目标语音串对应的目标文本序列;所述步骤S4基于所述文字序列生成摘要序列具体包括:基于所述第一语种的源文本序列生成第一语种的源文本摘要序列,所述源文本摘要序列保留所述目标文本序列;所述步骤S5翻译所述摘要序列并显示,具体包括:将所述第一语种的源文本摘要序列翻译为第二语种的输出文本序列,所述输出文本序列包括所述目标文本序列对应的第二语种的目标输出文本;将目标文本序列对应的第二语种的目标输出文本以预定格式显示。5.如权利要求4所述的一种语音实时翻译方法,其特征在于:将目标文本序列对应的第二语种的目...

【专利技术属性】
技术研发人员:何征宇
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1