一种动态语音识别方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:31236180 阅读:24 留言:0更新日期:2021-12-08 10:19
本发明专利技术涉及语音处理领域,提供了一种动态语音识别方法、装置、电子设备以及存储介质,所述动态语音方法包括:获取多段音频数据,按照多个预设场景对每段音频数据进行音频识别,得到对应的多个第一识别结果;实时检测当前的活动窗口,识别活动窗口的活动场景,并根据活动场景在第一识别结果中查找活动窗口对应的第二识别结果;显示查找到的第二识别结果。本发明专利技术可以实现不同活动场景下音频识别结果的动态显示,提高语音识别的灵活性。提高语音识别的灵活性。提高语音识别的灵活性。

【技术实现步骤摘要】
一种动态语音识别方法、装置、电子设备以及存储介质


[0001]本专利技术涉及语音处理领域,尤其涉及一种动态语音识别方法、装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]语音识别技术通常是指将声音信号转化为文字或指令的过程,如在语音输入控制系统中,它使用户可以甩掉键盘,通过识别语音中的要求、请求或命令,做出正确的响应,在语音输入对话系统中,用户通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。
[0003]现有的语音输入系统,一般是根据业务场景进行语音识别,并输入语音识别结果。其语音识别结果根据所处的业务场景通常是固定不变的,当用户需要在多个应用中输入同一段语音时,由于各个应用所处的应用环境不同,则需要在多个不同应用反复切换语音识别结果,这样会带来在多个应用场景下语音识别的极大不便,从而影响语音识别的灵活度。

技术实现思路

[0004]为了解决上述技术问题本专利技术提供了一种动态语音识别方法、装置、电子设备以及计算机可读存储本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种动态语音识别方法,其特征在于,所述方法包括:获取多段音频数据,按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果;实时检测当前的活动窗口,识别所述活动窗口的活动场景,并根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果;显示查找到的所述第二识别结果。2.如权利要求1所述的动态语音识别方法,其特征在于,所述按照多个预设场景对每段所述音频数据进行音频识别,得到对应的多个第一识别结果,包括:提取每段所述音频数据的音频特征,利用所述预设场景的声学模型计算每段所述音频特征的音素序列概率;根据所述音素序列概率,利用所述预设场景的语言模型计算每段所述音频特征的文字序列;根据每段所述音频数据的文字序列,得到多个所述第一识别结果。3.如权利要求1所述的动态语音识别方法,其特征在于,所述识别所述活动窗口的活动场景,包括:获取所述活动窗口的历史输入数据,将所述历史输入数据输入至训练完成的文本分类模型中,以识别所述历史输入数据对应的文档类别;根据所述文档类别,确定所述活动窗口的活动场景。4.如权利要求3所述的动态语音识别方法,其特征在于,所述将所述窗口名称输入至训练完成的文本分类模型中之前,还包括:获取训练数据和其对应的标签,利用预构建文本分类模型中的输入门计算所述训练数据的状态值;利用所述预构建文本分类模型中的遗忘门计算所述训练数据的激活值;根据所述状态值和激活值计算所述训练数据的状态更新值;利用所述预构建文本分类模型中的输出门计算所述状态更新值的窗口类别序列,得到所述训练数据的预测文档类别;计算所述预测文档类别与所述标签的损失值;在所述损失值大于预设阈值时,调整所述预构建文本分类模型的参数,并返回所述利用预构建文本分类模型中的输入门计算所述训练数据的状态值的步骤;在所述损失值不大于所述预设阈值时,得到训练完成的文本分类模型。5.如权利要求1所述的动态语音识别方法,其特征在于,所述预设场景包括默认场景,所述根据所述活动场景在所述第一识别结果中查找所述活动窗口对应的第二识别结果,包括:将所述活动场...

【专利技术属性】
技术研发人员:黄石磊程刚汪雪陈诚
申请(专利权)人:深圳市北科瑞声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1