一种实现同声传译的方法、装置及系统制造方法及图纸

技术编号:33842195 阅读:27 留言:0更新日期:2022-06-18 10:24
本申请公开了一种实现同声传译的方法,涉及会议通信领域。媒体服务器接收会议发言人的音频流以及根据该音频流翻译后的音频流,然后将该翻译后的音频流发送给AI设备以识别该翻译后的音频流的语种,最后再根据识别的结果将翻译后的音频流转发给相应的终端。该种同声传译的方法减少了人工的参与,提高了同声传译的效率。效率。效率。

【技术实现步骤摘要】
一种实现同声传译的方法、装置及系统


[0001]本申请涉及会议通信领域,尤其涉及一种实现同声传译的方法、装置及系统。

技术介绍

[0002]随着全球化进程的加快,国际会议数量明显增加,各个国家的语言丰富多样,因此也产生了在会议中进行同声传译的需求。同声传译,是指翻译员在不打断演讲者讲话的情况下,不间断地将内容口译给听众的一种翻译方式。一场大型的研讨会和国际会议,通常由两名到三名翻译员接替进行。
[0003]在实际的应用场景中,一场会议的发言人是不断切换的,来自不同国家的发言人会使用不同类型的语种。进而,翻译员也需要跟随发言人的切换调整翻译输出的语种。例如,一个翻译员的工作内容为中英双向翻译,当发言人更换,且发言的语种由汉语切换成英语时,翻译员也将由中翻英切换成英翻中。同时,翻译员在更换自己的输出语种时需要在相关设备上手动设置自己输出语种由英语变成汉语,以便于机器将该翻译后的音频流发送给属于同一语种的听众。此外,如果会议现场还需要配有专门的会议管理人员设置当前发言人的语种,以便于媒体服务器识别当前发言人的语种并将翻译后的音频流返回到会议现场的大屏终端。
[0004]然而,这样的操作方式及其容易出错。对于高强度的翻译员而言,在切换自己输出语种的同时需要在相关设备上设置自己新的输出语种,容易发生遗漏,导致最终效果异常。对于会议管理人员,需要集中精力关注发言语种的切换、辨别发言人的语种,如果切换不及时或者切换错误也会导致错乱。总体而言,这样的方式操作难度较大,用户体验不佳。

技术实现思路

[0005]本申请提供了一种实现同声传译的方法、装置及系统,减少人工在同声传译中的参与度,提高了会议同声传译的效率。
[0006]第一方面,本申请提供一种实现同声传译的方法。媒体服务器接收第一音频流以及根据第一音频流翻译而成的第二音频流;然后向AI设备发送第二音频流以识别第二音频流的语种;再根据第二音频流语种向第一终端发送该第二音频流,其中,第二音频流的语种为第一终端期望接收的音频流的语种。媒体服务器利用AI设备识别翻译后的音频流(第二音频流)的语种,翻译员无需再通过翻译终端手动设置自己翻译后的语种,减轻了翻译人员的压力,降低了会议语言系统的出错率,提高了同声传译的效率。
[0007]在一种可能的实现方式中,媒体服务器向AI设备发送第一音频流以识别该第一音频流的语种,然后根据该第一音频流的语种向第二终端发送该第一音频流,其中,第一音频流的语种为第二终端期望接收的音频流的语种。媒体服务利用AI设备识别发言人的原声音频流(第一音频流)的语种,无需会议管理人员再通过会议室终端手动设置发言人的语种,在整个的同声传译过程中减少了人工的参与,提高了同声传译的效率。
[0008]在另一种可能的实现方式中,媒体服务器根据AI设备返回的第二音频流的语种识
别结果确定所述第二音频流的语种。在该种实现方式中,AI设备直接返回语种识别结果,媒体服务器无需再对结果进行任何处理,然后根据该语种识别结果将第二音频流转发给第一终端。
[0009]在另一种可能的实现方式中,媒体服务器接收AI设备返回的与第二音频流对应的文本,然后根据该文本确定第二音频流的语种。AI设备将音频流转换成了文本发给媒体服务器,媒体服务器根据文本确定第二音频流的语种类型。在该实现方式下,媒体服务器接收了AI设备返回的文本后,还可以根据各个终端的设置将该文本转发到对应的终端,以实现实时字幕。
[0010]在另一种可能的实现方式中,媒体服务器向所有翻译员使用的翻译终端发送第一音频流,然后接收第二音频流,该第二音频流是所有翻译终端返回的音频流中的一个。在该实现方式下,媒体服务器向翻译员发送发言人原声音频流时采用全员发送策略,无需考虑翻译员的翻译能力,减少对媒体服务器计算资源的占用,降低了同声传译的出错率。
[0011]在另一种可能的实现方式中,第一音频流的语种为第一语种,第二音频流的语种为第二语种,媒体服务器根据AI设备对第一音频流的语种识别结果以及第一翻译能力参数向第三终端发送第一音频流,其中,第一翻译能力参数用于指示使用第三终端的第一翻译员的翻译能力包括将第一语种翻译成第二语种;然后媒体服务器接收第三终端发送的第二音频流。在该实现方式下,媒体服务器在向翻译员转发发言人原声音频流时考虑了翻译员的翻译能力,即只向涉及到该第一音频流语种相关业务的翻译员转发原声音频流,减少了冗余信息的传递,减少了对网络传输资源的占用。
[0012]在另一种可能的实现方式中,媒体服务器接收第三终端发送的第一翻译能力参数。第一翻译员通过第三终端向媒体服务器反馈自身的翻译能力参数,例如中英双向翻译、英法双向翻译等等。
[0013]在另一种可能的实现方式中,媒体服务器在会议开始前指定第三终端对应的翻译能力参数,翻译员根据自身的翻译能力选择第三终端接收发言人的原声音频流以及发送翻译之后的音频流。
[0014]在另一种可能的实现方式中,第一音频流的语种为第一语种,第二音频流的语种为第二语种,媒体服务器根据AI设备对第一音频流的语种识别结果、第二翻译能力参数和第三翻译能力参数确定第四终端和第五终端,所述第二翻译能力参数用于指示使用所述第四终端的第二翻译员的翻译能力包括将所述第一语种翻译成第三语种,所述第三翻译能力参数用于指示使用所述第五终端的第三翻译员的翻译能力包括将所述第三语种翻译成所述第二语种;媒体服务器向所述第四终端发送所述第一音频流;媒体服务器接收所述第四终端发送的第三音频流,所述第三音频流的语种为第三语种;媒体服务器向第五终端发送所述第三音频流;媒体服务器接收所述第五终端发送的所述第二音频流。媒体服务器根据第一音频流的语种识别结果以及翻译员的翻译能力参数信息确定翻译接力策略,以确保会议翻译服务的正常运行。
[0015]在另一种可能的实现方式中,媒体服务器在向第一终端发送第二音频流之前,媒体服务器还存储第二音频流,在确定时刻之后,媒体服务器从确定时刻前存储的所述第二音频流开始向第一终端发送第二音频流,所述确定时刻为所述媒体服务确定所述第二音频流的语种为所述第一终端期望接收的语种的时刻。在向第一终端发送第二音频流之前进行
对第二音频流进行缓存,当确认语种信息之后再进行转发,减少了会场串音的概率,提升用户体验。
[0016]在另一种可能的实现方式中,媒体服务器接收所述第一终端发送的第一语种设置信息,所述第一语种设置信息用于指示所述第一终端期望接收的音频流的语种;媒体服务器接收所述第二终端发送的第二语种设置信息,所述第二语种设置信息用于指示所述第二终端期望接收的音频流的语种。媒体服务器根据各个终端的语种设置信息确定各个终端期望接收的音频流的语种。
[0017]在另一种可能的实现方式中,AI设备和媒体服务器部署在同一个服务器中。当AI设备和媒体服务器部署在同一个服务器中时,AI设备和媒体服务器之间的通信延迟降低,降低了网络对同声传译服务的影响。
[0018]通过上述描述,本申请提供的同声传译方法通过AI设备对各个音频流进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现同声传译的方法,其特征在于,所述方法包括:媒体服务器接收第一音频流和第二音频流,所述第二音频流为根据所述第一音频流翻译后的音频流;所述媒体服务器向人工智能AI设备发送所述第二音频流以识别所述第二音频流的语种;所述媒体服务器根据所述第二音频流的语种向第一终端发送所述第二音频流,其中,所述第二音频流的语种为所述第一终端期望接收的音频流的语种。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述媒体服务器向所述AI设备发送所述第一音频流以识别所述第一音频流的语种;所述媒体服务器根据所述第一音频流的语种向所述第二终端发送所述第一音频流,其中,所述第一音频流的语种为所述第二终端期望接收的音频流的语种。3.根据权利要求1或2所述的方法,其特征在于,所述媒体服务器向所述AI设备发送所述第二音频流以识别所述第二音频流的语种包括:所述媒体服务器根据所述AI设备返回的对第二音频流的语种识别结果确定所述第二音频流的语种。4.根据权利要求1或2所述的方法,其特征在于,所述媒体服务器向所述AI设备发送所述第二音频流以识别所述第二音频流的语种包括:所述媒体服务器接收所述AI设备返回的与所述第二音频流对应的文本;所述媒体服务器根据所述文本确定所述第二音频流的语种。5.根据权利要求2

4任一所述的方法,其特征在于,所述媒体服务器接收所述第二音频流包括:所述媒体服务器向所有翻译员使用的翻译终端发送所述第一音频流;所述媒体服务器接收第二音频流,所述第二音频流来自所述所有翻译员使用的翻译终端中的一个。6.根据权利要求2

5任一所述的方法,其特征在于,所述第一音频流的语种为第一语种,所述第二音频流的语种为第二语种,所述媒体服务器接收所述第二音频流包括:所述媒体服务器根据所述AI设备对第一音频流的语种识别结果和第一翻译能力参数向第三终端发送所述第一音频流,所述第一翻译能力参数用于指示使用所述第三终端的第一翻译员的翻译能力包括将所述第一语种翻译成所述第二语种;所述媒体服务器接收所述第三终端发送的所述第二音频流。7.根据权利要求6所述的方法,其特征在于,在所述媒体服务器向第三终端发送所述第一音频流之前,所述方法还包括:所述媒体服务器接收所述第三终端发送的所述第一翻译能力参数。8.根据权利要求2

5任一项所述的方法,其特征在于,所述第一音频流的语种为第一语种,所述第二音频流的语种为第二语种,所述媒体服务器接收所述第二音频流包括:所述媒体服务器根据所述AI设备对第一音频流的语种识别结果、第二翻译能力参数和第三翻译能力参数确定第四终端和第五终端,所述第二翻译能力参数用于指示使用所述第四终端的第二翻译员的翻译能力包括将所述第一语种翻译成第三语种,所述第三翻译能力参数用于指示使用所述第五终端的第三翻译员的翻译能力包括将所述第三语种翻译成所
述第二语种;所述媒体服务器向所述第四终端发送所述第一音频流;所述媒体服务器接收所述第四终端发送的第三音频流,所述第三音频流为根据所述第一音频流翻译后的音频流,所述第三音频流的语种为所述第三语种;所述媒体服务器向第五终端发送所述第三音频流;所述媒体服务器接收所述第五终端发送的所述第二音频流。9.根据权利要求1

8任一项所述的方法,其特征在于,所述媒体服务器向第一终端发送所述第二音频流之前,所述方法还包括:所述媒体服务器存储所述第二音频流;在确定时刻之后,所述媒体服务器从所述确定时刻前存储的所述第二音频流开始向第一终端发送所述第二音频流,所述确定时刻为所述媒体服务确定所述第二音频流的语种为所述第一终端期望接收的语种的时刻。10.根据权利要求1

9任一所述的方法,其特征在于,所述方法还包括:所述媒体服务器接收所述第一终端发送的第一语种设置信息,所述第一语种设置信息用于指示所述第一终端期望接收的音频流的语种;所述媒体服务器接收所述第二终端发送的第二语种设置信息,所述第二语种设置信息用于指示所述第二终端期望接收的音频流的语种。11.根据权利要求1

10任一项所述的方法,其特征在于,所述AI设备和所述媒体服务器部署在同一服务器中。12.一种实现同声传译的装置,其特征在于,所述装置包括接收模块和发送模块,所述接收模块,用于接收第一音频流和第二音频流,所述第二音频流为根据所述第一音频流翻译后的音频流;所述发送模块,用于向人工智能AI设备发送所述第二音频流以识别所述第二音频流的语种;还用于根据所述第二音频流的语种向第一终端发送所述第二音频流,其中,所述第二音频流的语种为所述第一终端期望接收的音频流的语种。13.根据权利要求12所述的装置,其特征在于,所述发送模块,还用于向所述AI设备发送所述第一音频流以识别所述第一音频流的语种;还用...

【专利技术属性】
技术研发人员:夏禹
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1