一种语音转文本方法及相关装置、电子设备制造方法及图纸

技术编号:37450250 阅读:11 留言:0更新日期:2023-05-06 09:22
本申请公开了一种语音转文本方法及相关装置、电子设备,该方法包括:获取目标音频数据;基于在线识别服务的网络状态信息以及服务选择策略,从若干识别服务中启用至少一种目标识别服务,若干识别服务包括至少一种在线识别服务;利用目标识别服务对目标音频数据进行识别,得到目标音频数据对应的文本识别结果;以及基于至少一个调整参考因子,调整服务选择策略,调整后的服务选择策略用于对下一目标音频数据的目标识别服务进行选择,调整参考因子包括在线识别服务的网络状态信息以及用户在音频识别过程中的操作信息中的至少一者。上述方案,能够提升音频识别的效率和准确性。能够提升音频识别的效率和准确性。能够提升音频识别的效率和准确性。

【技术实现步骤摘要】
一种语音转文本方法及相关装置、电子设备


[0001]本申请涉及语音识别领域,特别是涉及一种语音转文本方法及相关装置、电子设备。

技术介绍

[0002]目前市场上针对语音转文字的需求基本采用在线网络识别,可是其并不能根据在线网络识别的网络状态信息对语音数据选择合适的识别方法,从而导致语音识别效率低。市场上另一种方案是采用离线识别方法,但其识别效果不及在线网络识别。为提高识别效果,另一种方案是先采用离线识别方法对语音数据进行识别,在后续网络状态信息良好的情况下,再使用在线网络识别方法对语音数据重新进行识别,这种事后方案无法满足及时性的要求,在实时场景下无法使用。

技术实现思路

[0003]本申请至少提供一种语音转文本方法及相关装置、电子设备,能够提升音频识别的效率和准确性。
[0004]本申请第一方面提供了一种语音转文本方法,包括:获取目标音频数据;基于在线识别服务的网络状态信息以及服务选择策略,从若干识别服务中启用至少一种目标识别服务,若干识别服务包括至少一种在线识别服务;利用目标识别服务对目标音频数据进行识别,得到目标音频数据对应的文本识别结果;以及基于至少一个调整参考因子,调整服务选择策略,调整后的服务选择策略用于对下一目标音频数据的目标识别服务进行选择,调整参考因子包括在线识别服务的网络状态信息以及用户在音频识别过程中的操作信息中的至少一者。
[0005]其中,若干识别服务的优先级不同,服务选择策略为:按照优先级依序启用各识别服务以作为目标识别服务,且最高优先级以外的识别服务的启用触发条件为识别服务的参考识别服务在启用后的网络状态信息符合参考识别服务对应的预设响应要求;识别服务的参考识别服务为在线识别服务且优先级高于识别服务;基于至少一个调整参考因子,调整服务选择策略,包括以下至少一个步骤:基于至少一个调整参考因子,调整若干识别服务的优先级;基于至少一个调整参考因子,调整识别服务对应的网络响应要求。
[0006]其中,参考识别服务在启用后的网络状态信息包括至少一个网络状态因子,参考识别服务对应的预设响应要求包括:参考识别服务的网络状态因子超过参考识别服务关于网络状态因子的参考阈值;网络状态因子包括以下至少一个:参考识别服务的建立连接时长,以及参考识别服务识别得到的相邻两次文本识别结果的接收时间间隔。
[0007]其中,在线识别服务的参考识别服务为优先级比在线识别服务高一级的其他在线识别服务;和/或,若干识别服务还包括离线识别服务,离线识别服务的优先级最低,离线识别服务的参考识别服务为整体在线识别服务,整体在线识别服务的网络状态因子包括以下至少一个:各在线识别服务的建立连接时长、以及相邻两次在线文本识别结果的接收时间
间隔,在线文本识别结果是由任意启用的在线识别服务识别得到的;整体在线识别服务对应的预设响应要求包括以下至少一个:各在线识别服务的建立连接时长均超过整体在线识别服务关于建立连接时长的第一参考阈值、以及相邻两次在线文本识别结果的接收时间间隔超过整体在线识别服务关于接收时间间隔的第二参考阈值。
[0008]其中,若干识别服务还包括离线识别服务,离线识别服务的优先级最低,离线识别服务的参考识别服务为整体在线识别服务;基于至少一个调整参考因子,调整识别服务对应的网络响应要求,包括:响应于整体在线识别服务的网络状态因子超过整体在线识别服务关于网络状态因子的参考阈值,降低整体在线识别服务关于网络状态因子的参考阈值。
[0009]其中,网络状态因子包括以下至少一者:建立连接时长,以及相邻两次文本识别结果的接收时间间隔,在线识别服务识别的文本识别结果为在线文本识别结果;基于至少一个调整参考因子,调整识别服务对应的网络响应要求,包括以下至少一个步骤:响应于用户在首次文本等待期间取消目标音频数据识别的服务,获取在本次说话的开始端点到取消时刻之间的第一时间间隔,将各识别服务的参考识别服务关于建立连接时长的第一参考阈值均降低至小于第一时间间隔,首次文本等待期间为在本次说话的开始端点到首次接收到在线文本识别结果之间的时间段;响应于用户在预设文本接收期间取消目标音频数据识别的服务,将各识别服务的参考识别服务关于接收时间间隔的第二参考阈值均调整为小于预设文本接收期间,预设文本接收期间为最近接收到在线文本识别结果后的第二时间间隔内;获取本次说话的开始端点到首次接收到在线文本识别结果之间的第三时间间隔,将各在线识别服务的参考识别服务的第一参考阈值均调整至不大于初始参考阈值和第三时间间隔;统计每相邻两次在线文本识别结果的接收时间间隔,将各在线识别服务的参考识别服务的第二参考阈值均调整至统计得到的最大的接收时间间隔和初始参考阈值之间。
[0010]其中,基于至少一个调整参考因子,调整若干识别服务的优先级,包括:响应于在线识别服务的网络状态信息不满足在线识别服务对应的网络响应要求,将在线识别服务的选择优先级进行降级处理;响应于在线识别服务对应的文本识别结果被用户采用的次数达到在线识别服务对应的预设次数,将在线识别服务的选择优先级进行升级处理。
[0011]其中,目标音频数据为本次说话中的一音频分段;方法的执行设备分别对按照音频采集的先后顺序依序将本次说话中的各音频分段作为目标音频数据并基于目标音频数据执行方法,以得到各音频分段对应的文本识别结果;获取本次说话的首个目标音频数据,包括:响应于监测到本次说话的开始端点,获取位于开始端点的第一时间范围内的音频分段作为首个目标音频数据;获取本次说话的最后一个目标音频数据,包括:响应于监测到本次说话的结束端点,获取位于结束端点的第二时间范围内的音频分段作为最后一个目标音频数据。
[0012]本申请第二方面提供了一种一种语音转文本装置,包括:获取模块,用于获取目标音频数据;选择模块,用于基于在线识别服务的网络状态信息以及服务选择策略,从若干识别服务中启用至少一种目标识别服务,若干识别服务包括至少一种在线识别服务;识别模块,用于利用目标识别服务对目标音频数据进行识别,得到目标音频数据对应的文本识别结果;调整模块,用于基于至少一个调整参考因子,调整服务选择策略,调整后的服务选择策略用于对下一目标音频数据的目标识别服务进行选择,调整参考因子包括在线识别服务的网络状态信息以及用户在音频识别过程中的操作信息中的至少一者。
[0013]本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的语音转文本方法。
[0014]上述方案,在对目标音频数据进行识别时,根据在线识别服务的网络状态信息以及服务选择策略,从若干识别服务中启用至少一种目标识别服务对目标音频数据进行识别,得到目标音频数据对应的文本识别结果,再根据在线识别服务的网络状态信息以及用户在音频识别过程中的操作信息中的至少一者调整服务选择策略,以用于后续选择合适的目标识别服务对后续的目标音频数据进行识别,由此能够实现关于音频识别的服务选择策略的动态调整,且可以使得经动态调整后的服务选择策略选择更与在线识别服务的网络情况本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转文本方法,其特征在于,包括:获取目标音频数据;基于在线识别服务的网络状态信息以及服务选择策略,从若干识别服务中启用至少一种目标识别服务,所述若干识别服务包括至少一种在线识别服务;利用所述目标识别服务对所述目标音频数据进行识别,得到所述目标音频数据对应的文本识别结果;以及基于至少一个调整参考因子,调整所述服务选择策略,调整后的所述服务选择策略用于对下一所述目标音频数据的所述目标识别服务进行选择,所述调整参考因子包括所述在线识别服务的网络状态信息以及用户在音频识别过程中的操作信息中的至少一者。2.根据权利要求1所述的方法,其特征在于,所述若干识别服务的优先级不同,所述服务选择策略为:按照所述优先级依序启用各所述识别服务以作为所述目标识别服务,且最高所述优先级以外的所述识别服务的启用触发条件为所述识别服务的参考识别服务在启用后的网络状态信息符合所述参考识别服务对应的预设响应要求;所述识别服务的参考识别服务为所述在线识别服务且优先级高于所述识别服务;所述基于至少一个调整参考因子,调整所述服务选择策略,包括以下至少一个步骤:基于所述至少一个调整参考因子,调整所述若干识别服务的所述优先级;基于所述至少一个调整参考因子,调整所述识别服务对应的网络响应要求。3.根据权利要求2所述的方法,其特征在于,所述参考识别服务在启用后的网络状态信息包括至少一个网络状态因子,所述参考识别服务对应的预设响应要求包括:所述参考识别服务的所述网络状态因子超过所述参考识别服务关于所述网络状态因子的参考阈值;所述网络状态因子包括以下至少一个:所述参考识别服务的建立连接时长,以及所述参考识别服务识别得到的相邻两次文本识别结果的接收时间间隔。4.根据权利要求3所述的方法,其特征在于,所述在线识别服务的参考识别服务为优先级比所述在线识别服务高一级的其他在线识别服务;和/或,所述若干识别服务还包括离线识别服务,所述离线识别服务的优先级最低,所述离线识别服务的参考识别服务为整体在线识别服务,所述整体在线识别服务的网络状态因子包括以下至少一个:各所述在线识别服务的建立连接时长、以及相邻两次在线文本识别结果的接收时间间隔,所述在线文本识别结果是由任意启用的所述在线识别服务识别得到的;所述整体在线识别服务对应的预设响应要求包括以下至少一个:各所述在线识别服务的建立连接时长均超过所述整体在线识别服务关于建立连接时长的第一参考阈值、以及所述相邻两次在线文本识别结果的接收时间间隔超过所述整体在线识别服务关于接收时间间隔的第二参考阈值。5.根据权利要求3所述的方法,其特征在于,所述若干识别服务还包括离线识别服务,所述离线识别服务的优先级最低,所述离线识别服务的参考识别服务为整体在线识别服务;所述基于所述至少一个调整参考因子,调整所述识别服务对应的网络响应要求,包括:响应于所述整体在线识别服务的网络状态因子超过所述整体在线识别服务关于所述网络状态因子的参考阈值,降低所述整体在线识别服务关于所述网络状态因子的参考阈值。
6.根据权利要求3所述的方法,其特征在于,所述网络状态因子包括以下至少一者:所述建立连接时长,以及所述相邻两次文本识别结果的接收时间间隔,所述...

【专利技术属性】
技术研发人员:崔阿鹏
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1