System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 通话字幕处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

通话字幕处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40974815 阅读:8 留言:0更新日期:2024-04-18 21:23
本申请实施例公开了一种通话字幕处理方法、装置、电子设备及存储介质,通过获取接入目标通话的任意一个通话成员传输的通话音频数据包,将通话音频数据包传输至接入目标通话的字幕服务端,字幕服务端对通话音频数据包进行语音识别得到字幕数据包,得到的字幕数据包被传输至各个通话成员。生成字幕数据包的过程无须其他通话成员的参与,有效降低网络负载,提升通话字幕的实时性,并且由于字幕服务端被管理服务端配置为目标通话的隐藏成员,其他通话成员并不会感知到字幕服务端的存在,从而在提升通话字幕的实时性的同时,保留原有的通话体验,提升通话字幕处理的通用性,可广泛应用于云技术、人工智能等场景。

【技术实现步骤摘要】

本申请涉及互联网,特别是涉及一种通话字幕处理方法、装置、电子设备及存储介质


技术介绍

1、随着终端技术的发展和网络带宽的提升,越来越多的用户选择使用音视频通话系统进行远程沟通,在一些场景中,往往需要在通话过程中同时显示通话字幕。相关技术中,在通话过程中生成通话字幕时,终端需要将音频数据发送至语音识别服务器进行语音识别,进而生成通话字幕,这种处理方式会增加网络负载,降低了通话字幕的实时性。


技术实现思路

1、以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本申请实施例提供了一种通话字幕处理方法、装置、电子设备及存储介质,能够提升通话字幕的实时性。

3、一方面,本申请实施例提供了一种通话字幕处理方法,包括:

4、获取接入目标通话的任意一个通话成员传输的通话音频数据包;

5、将所述通话音频数据包传输至接入所述目标通话的字幕服务端,其中,所述字幕服务端是由所述目标通话的管理服务端激活并接入所述目标通话的,所述字幕服务端被所述管理服务端配置为所述目标通话的隐藏成员,所述字幕服务端用于对所述通话音频数据包进行语音识别得到字幕数据包;

6、获取所述字幕服务端传输的所述字幕数据包,将所述字幕数据包传输至所述通话成员。

7、另一方面,本申请实施例还提供了一种通话字幕处理装置,包括:

8、第一获取模块,用于获取接入目标通话的任意一个通话成员传输的通话音频数据包;

9、第一传输模块,用于将所述通话音频数据包传输至接入所述目标通话的字幕服务端,其中,所述字幕服务端是由所述目标通话的管理服务端激活并接入所述目标通话的,所述字幕服务端被所述管理服务端配置为所述目标通话的隐藏成员,所述字幕服务端用于对所述通话音频数据包进行语音识别得到字幕数据包;

10、第二传输模块,用于获取所述字幕服务端传输的所述字幕数据包,将所述字幕数据包传输至所述通话成员。

11、进一步,上述第二传输模块具体用于:

12、为来自不同所述通话成员的所述字幕数据包分别配置不同的字幕数据流,其中,所述字幕数据流包括按照顺序排列的所述字幕数据包;

13、将配置所述字幕数据流后的所述字幕数据包传输至所述通话成员,接收所述通话成员返回的反馈信息;

14、当所述反馈信息指示存在丢失的所述字幕数据包时,将丢失的所述字幕数据包重新传输至所述通话成员。

15、进一步,上述第二传输模块具体用于:

16、确定当前时刻与丢失的所述字幕数据包的传输时刻之间的传输时间间隔;

17、当所述传输时间间隔大于或者等于时长阈值,将丢失的所述字幕数据包重新传输至所述通话成员,其中,所述时长阈值是基于所述通话成员的数据接收状态确定的,所述数据接收状态用于指示所述通话成员已接收到至少一个目标数据包或者未接收到所述目标数据包,所述目标数据包为其中一个所述字幕数据包,且所述目标数据包的所述包序号大于丢失的所述字幕数据包的所述包序号。

18、进一步地,该通话字幕处理装置还包括:

19、第一获取模块,用于获取接入目标通话的任意一个通话成员传输的通话音频数据包;

20、第一传输模块,用于将所述通话音频数据包传输至接入所述目标通话的字幕服务端,其中,所述字幕服务端是由所述目标通话的管理服务端激活并接入所述目标通话的,所述字幕服务端被所述管理服务端配置为所述目标通话的隐藏成员,所述字幕服务端用于对所述通话音频数据包进行语音识别得到字幕数据包;

21、第二传输模块,用于获取所述字幕服务端传输的所述字幕数据包,将所述字幕数据包传输至所述通话成员。

22、进一步,上述第二传输模块具体用于:

23、获取所述第二数据链路的传输质量参数,当根据所述传输质量参数确定所述第二数据链路的传输质量正常时,将所述通话音频数据包以及对应的所述字幕数据包组合为合并数据包,将所述合并数据包传输至所述通话成员;

24、或者,获取所述第二数据链路的传输质量参数,当根据所述传输质量参数确定所述第二数据链路的传输质量异常时,将所述通话音频数据包以及对应的所述字幕数据包分别传输至所述通话成员。

25、进一步,上述第二传输模块具体用于:

26、从所述通话音频数据包中提取出音频数据,从所述字幕数据包中提取出字幕数据;

27、将所述音频数据以及所述字幕数据添加至合并数据包的包体,在所述合并数据包的包头中配置第一包类型、所述音频数据的数据长度以及所述字幕数据的数据长度,其中,所述第一包类型用于指示所述合并数据包中同时封装有所述音频数据以及所述字幕数据。

28、进一步地,该通话字幕处理装置还包括:

29、第二包类型确定模块:用于确定所述字幕数据包的第二包类型,其中,所述第二包类型用于指示所述字幕数据包封装有字幕数据;

30、确定通话成员模块:用于将所述第二包类型与预设的转发规则进行匹配,根据匹配结果将所述字幕数据包的传输对象确定为所述通话成员,其中,所述转发规则用于指示第二包类型与传输对象之间的映射关系。

31、进一步,上述第二包类型确定模块具体用于:

32、从所述字幕数据包中识别出所述字幕数据包的包头;

33、从所述字幕数据包的包头中提取得到所述字幕数据包的第二包类型。

34、另一方面,本申请实施例还提供了一种通话字幕处理方法,包括:

35、响应于目标通话的管理服务端传输的接入指令,以隐藏成员的身份接入所述目标通话;

36、获取所述目标通话的中转服务端传输的通话音频数据包,对所述通话音频数据包进行语音识别得到字幕数据包,其中,所述通话音频数据包是接入所述目标通话的任意一个通话成员传输至中转服务端的;

37、将所述字幕数据包传输至所述中转服务端,以供所述中转服务端将所述字幕数据包传输至所述通话成员。

38、另一方面,本申请实施例还提供了一种通话字幕处理装置,包括:

39、接入模块,用于响应于目标通话的管理服务端传输的接入指令,以隐藏成员的身份接入所述目标通话;

40、语音识别模块,用于获取所述目标通话的中转服务端传输的通话音频数据包,对所述通话音频数据包进行语音识别得到字幕数据包,其中,所述通话音频数据包是接入所述目标通话的任意一个通话成员传输至所述中转服务端的;

41、第三传输模块,用于将所述字幕数据包传输至所述中转服务端,以供所述中转服务端将所述字幕数据包传输至所述通话成员。

42、进一步,上述语音识别模块具体用于:

43、从所述通话音频数据包中提取出音频数据,对所述音频数据进行语音识别得到字幕数据;

44、对所述字幕数据进行加密,将加密后的所述字幕数据添加至字幕数据包的包体;

45、在所述字幕数据包的包头中配置本文档来自技高网...

【技术保护点】

1.一种通话字幕处理方法,其特征在于,包括:

2.根据权利要求1所述的通话字幕处理方法,其特征在于,所述将所述字幕数据包传输至所述通话成员,包括:

3.根据权利要求2所述的通话字幕处理方法,其特征在于,各个所述字幕数据包均配置有各自对应的包序号,所述将丢失的所述字幕数据包重新传输至所述通话成员,包括:

4.根据权利要求3所述的通话字幕处理方法,其特征在于,所述当所述传输时间间隔大于或者等于预设的时长阈值,将丢失的所述字幕数据包重新传输至所述通话成员之前,所述通话字幕处理方法还包括:

5.根据权利要求1所述的通话字幕处理方法,其特征在于,所述通话成员分别创建有各自对应的第二数据链路,所述第二数据链路用于供当前的所述通话成员接收其余的所述通话成员传输的所述通话音频数据包,所述将所述字幕数据包传输至所述通话成员,包括:

6.根据权利要求5所述的通话字幕处理方法,其特征在于,所述将所述通话音频数据包以及对应的所述字幕数据包组合为合并数据包,包括:

7.根据权利要求1所述的通话字幕处理方法,其特征在于,所述将所述字幕数据包传输至所述通话成员之前,所述通话字幕处理方法还包括:

8.根据权利要求7所述的通话字幕处理方法,其特征在于,所述确定所述字幕数据包的第二包类型,包括:

9.一种通话字幕处理方法,其特征在于,包括:

10.根据权利要求9所述的通话字幕处理方法,其特征在于,所述对所述通话音频数据包进行语音识别得到字幕数据包,包括:

11.一种通话字幕处理装置,其特征在于,包括:

12.一种通话字幕处理装置,其特征在于,包括:

13.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任意一项所述的通话字幕处理方法。

14.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10任意一项所述的通话字幕处理方法。

15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10任意一项所述的通话字幕处理方法。

...

【技术特征摘要】

1.一种通话字幕处理方法,其特征在于,包括:

2.根据权利要求1所述的通话字幕处理方法,其特征在于,所述将所述字幕数据包传输至所述通话成员,包括:

3.根据权利要求2所述的通话字幕处理方法,其特征在于,各个所述字幕数据包均配置有各自对应的包序号,所述将丢失的所述字幕数据包重新传输至所述通话成员,包括:

4.根据权利要求3所述的通话字幕处理方法,其特征在于,所述当所述传输时间间隔大于或者等于预设的时长阈值,将丢失的所述字幕数据包重新传输至所述通话成员之前,所述通话字幕处理方法还包括:

5.根据权利要求1所述的通话字幕处理方法,其特征在于,所述通话成员分别创建有各自对应的第二数据链路,所述第二数据链路用于供当前的所述通话成员接收其余的所述通话成员传输的所述通话音频数据包,所述将所述字幕数据包传输至所述通话成员,包括:

6.根据权利要求5所述的通话字幕处理方法,其特征在于,所述将所述通话音频数据包以及对应的所述字幕数据包组合为合并数据包,包括:

7.根据权利要求1所述的通话字幕处理方法,其特征在于,...

【专利技术属性】
技术研发人员:薛政周煜郭泽辉黄晓萍
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1