语音识别方法、装置、系统、设备、介质和程序产品制造方法及图纸

技术编号:37994135 阅读:15 留言:0更新日期:2023-06-30 10:08
本公开提供了一种语音识别方法,可以应用于云计算技术领域以及人工智能技术领域。该语音识别方法应用于用户终端,所述方法包括:获取当前时刻的网络状态数据;基于所述当前时刻的网络状态数据和预设的第一智能体,对采集到的用户语音音频流分帧,得到音频切片,其中,所述第一智能体是基于强化学习形成的;将所述音频切片发送至语音识别服务器;以及接收来自所述语音识别服务器的语音识别信息。本公开还提供了一种语音识别装置、系统、设备、存储介质和程序产品。程序产品。程序产品。

【技术实现步骤摘要】
语音识别方法、装置、系统、设备、介质和程序产品


[0001]本公开涉及云计算
以及人工智能
,具体地涉及一种语音识别方法、装置、系统、设备、介质和程序产品。

技术介绍

[0002]云端语音识别一种将语音放置在远端实现语音识别处理的技术方案,一般情况下,该方案将语音识别引擎放置于云端的服务器中,将语音采集/发送的逻辑放置于用户终端的客户端中,客户端采集用户语音,并作一些预处理后传输到识别引擎所在的服务器,在服务器将语音识别后,返回识别的结果至用户终端。
[0003]在该方案的背景下,现有存放云端语音识别逻辑服务器处于机房中心,在某个城市距离机房中心所在城市距离较远的情况下,会导致链路延时较长。在语音数据传输至机房中心,再从机房返回识别后的结果时加剧延时。现有方案,并不能保证在复杂网络链路中,制定符合当前网络状态的数据流发送策略,难以保证语音数据传输的及时性。

技术实现思路

[0004]鉴于上述问题,本公开提供了提高远端语音识别效率和语音识别稳定性的语音识别方法、装置、系统、设备、介质和程序产品。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,所述方法应用于用户终端,所述方法包括:获取当前时刻的网络状态数据;基于所述当前时刻的网络状态数据和预设的第一智能体,对采集到的用户语音音频流分帧,得到音频切片,其中,所述第一智能体是基于强化学习形成的;将所述音频切片发送至语音识别服务器;以及接收来自所述语音识别服务器的语音识别信息。2.根据权利要求1所述的方法,其中,所述基于所述当前时刻的网络状态数据和预设的第一智能体,对采集到的用户语音音频流分帧,得到音频切片,包括:获取预设的多个切片动作;基于所述当前时刻的网络状态数据和所述预设的第一智能体,对所述多个切片动作进行评价打分,得到多个动作评价值,其中,所述多个动作评价值至少包括第一动作评价值,所述第一动作评价值是所述多个动作评价值中分数最高的值,所述第一动作评价值对应第一切片动作;以及基于所述第一切片动作,对所述用户语音音频流进行分帧。3.根据权利要求2所述的方法,其中,在所述接收来自所述语音识别服务器的语音识别信息后,还包括:获取下一时刻的网络状态数据;基于所述当前时刻的网络状态数据和所述下一时刻的网络状态数据,计算奖励值;基于所述奖励值和所述网络状态数据,计算标准目标值;获取所述第一智能体的第一模型参数;以及基于所述标准目标值、所述第一动作评价值以及所述第一模型参数,计算第二模型参数,其中,所述第二模型参数用于形成第二智能体。4.根据权利要求3所述的方法,其中,所述智能体是基于动作价值函数形成的,所述基于所述当前时刻的网络状态数据和所述预设的第一智能体,对所述多个切片动作进行评价打分,得到多个动作评价值,包括:对于一个所述切片动作,将所述当前时刻的网络状态数据、所述切片动作和所述第一模型参数作为输入数据,通过所述动作价值函数计算,得到动作评价值。5.根据权利要求3或4所述的方法,其中,所述网络状态数据至少包括音频识别速度,所述获取当前时刻的网络状态数据,包括:获取音频时长、开始时间以及识别结果拿到时间;基于所述音频时长、所述开始时间以及所述识别结果拿到时间计算所述音频识别速度。6.根据权利要求5所述的方法,其中,所述基于所述当前时刻的网络状态数据和所述下一时刻的网络状态数据,计算奖励值,包括:基于当前时刻的所述音频识别速度和上一时刻的所述音频识别速度,计算所述奖励值。7.一种语音识别方法,其中,所述语音接收方法应用于语音识别服务器,所述方法包括:接收来自用户终端的音频切片,所述用户终端是所述音频切片初始的发送端,所述音
频切片是所述用户终端通过获取到的当前时刻的网络状态数据和预设的第一智能体,对采集到的用户语音音频流分帧得到的;按照预设的语音...

【专利技术属性】
技术研发人员:袁旺柳孙雨辰敖建
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1