System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种语音识别方法、装置和电子设备制造方法及图纸_技高网

一种语音识别方法、装置和电子设备制造方法及图纸

技术编号:40874433 阅读:2 留言:0更新日期:2024-04-08 16:42
本公开涉及人机交互技术领域,尤其涉及一种语音识别方法、装置和电子设备,用于解决如何提升电子设备的语音识别的准确率的问题。该方法包括:获取电子设备发送的待识别音频流;对待识别音频流的音频特征进行识别,得到待识别音频流对应的声学特征,以及声学特征对应的实际得分;对声学特征进行预测,确定包含声学特征的至少一个理论文本;基于理论文本查询用户账号对应的用户实体字典,得到理论文本中包含的实体词的配置信息,以及用户实体字典中的最小词频;基于当前时刻、实际得分、配置信息和最小词频,确定每个理论文本的理论得分;基于理论得分,确定待识别音频流的实际识别结果为最大的理论得分对应的理论文本。

【技术实现步骤摘要】

本公开涉及人机交互,尤其涉及一种语音识别方法、装置和电子设备


技术介绍

1、在人机交互的场景中,语音识别对自然语言理解和自然语言生成,起着至关重要的作用。语音识别的正确性是下游任务的基础和瓶颈所在,如:用户在使用电子设备的过程中,可以通过语音的方式控制电子设备执行相应的操作。在此过程中,电子设备会持续地接收到用户输入的语音信息所对应的音频流,同时电子设备对该音频流进行解码,并实时地提示解码的结果。当电子设备的语音识别的准确率较低时,需要用户多次重复输入相同的语音,电子设备才能正确识别出该语音对应的操作,导致用户的体验较差。

2、因此,如何提升电子设备的语音识别的准确率成为了一个亟待解决的问题。


技术实现思路

1、为了解决上述技术问题,本公开提供了一种语音识别方法、装置和电子设备。

2、本公开的技术方案如下:

3、第一方面,本公开提供一种服务器,包括:通信器,被配置为获取电子设备发送的待识别音频流;其中,一个电子设备对应一个用户账号;处理器,被配置为对通信器获取的待识别音频流的音频特征进行识别,得到待识别音频流对应的声学特征,以及声学特征对应的实际得分;处理器,还被配置为对声学特征进行预测,确定包含声学特征的至少一个理论文本;处理器,还被配置为基于理论文本查询用户账号对应的用户实体字典,得到理论文本中包含的实体词的配置信息,以及用户实体字典中的最小词频;处理器,还被配置为基于当前时刻、实际得分、配置信息和最小词频,确定每个理论文本的理论得分;处理器,还被配置为基于理论得分,确定待识别音频流的实际识别结果为最大的理论得分对应的理论文本。

4、第二方面,本公开提供一种语音识别方法,包括:获取电子设备发送的待识别音频流;其中,一个电子设备对应一个用户账号;对待识别音频流的音频特征进行识别,得到待识别音频流对应的声学特征,以及声学特征对应的实际得分;对声学特征进行预测,确定包含声学特征的至少一个理论文本;基于理论文本查询用户账号对应的用户实体字典,得到理论文本中包含的实体词的配置信息,以及用户实体字典中的最小词频;基于当前时刻、实际得分、配置信息和最小词频,确定每个理论文本的理论得分;基于理论得分,确定待识别音频流的实际识别结果为最大的理论得分对应的理论文本。

5、第三方面,本公开提供一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在执行计算机程序时,使得电子设备实现如第二方面提供的任一项的语音识别方法。

6、第四方面,本专利技术提供一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行如第二方面提供的任一项的语音识别方法。

7、第五方面,本专利技术提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第二方面提供的任一项的语音识别方法。

8、需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中,第一计算机可读存储介质可以与服务器的处理器封装在一起的,也可以与服务器的处理器单独封装,本公开对此不作限定。

9、本公开中第二方面、第三方面、第四方面以及第五方面的描述,可以参考第一方面的详细描述;并且,第二方面、第三方面、第四方面以及第五方面的描述的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。

10、在本公开中,上述服务器的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似,属于本公开权利要求及其等同技术的范围之内。

11、本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

12、本公开提供的技术方案与现有技术相比具有如下优点:

13、本公开提供的语音识别方法,服务器在获取到电子设备发送的待识别音频流时,对待识别音频流的音频特征进行识别,得到待识别音频流对应的声学特征,以及声学特征对应的实际得分;对声学特征进行预测,确定包含声学特征的至少一个理论文本;基于理论文本查询用户账号对应的用户实体字典,得到理论文本中包含的实体词的配置信息,以及用户实体字典中的最小词频;如此,可以基于用户的使用习惯,得到用户实体字典中不同的实体词的配置信息。这样,服务器就可以基于当前时刻、实际得分、实体词的配置信息和最小词频,计算出每个理论文本的理论得分。由于理论得分中结合了理论得分,导致理论得分更加符合用户的习惯。进而可以根据理论得分,选择出更加准确地找到待识别音频流的实际识别结果,如将最大的理论得分对应的理论文本作为实际识别结果,解决了如何提升电子设备的语音识别的准确率的问题。

本文档来自技高网...

【技术保护点】

1.一种服务器,其特征在于,包括:

2.根据权利要求1所述的服务器,其特征在于,所述通信器,还被配置为获取所述用户账号的历史音频流对应的历史识别结果、以及是否访问所述历史识别结果对应的多媒体信息的访问结果;

3.根据权利要求2所述的服务器,其特征在于,所述处理器,进一步被配置为对所述通信器获取的所述历史识别结果进行实体词提取,确定所述历史识别结果中包含的实体词;

4.根据权利要求3所述的服务器,其特征在于,所述处理器,进一步被配置为在所述通信器获取的所述访问结果为已访问所述历史识别结果对应的多媒体信息的情况下,确定所述反馈标志位为第一标识;其中,所述第一标识用于指示用户已访问所述历史识别结果对应的多媒体资源。

5.根据权利要求3所述的服务器,其特征在于,所述处理器,进一步被配置为在所述通信器获取的所述访问结果为未访问所述历史识别结果对应的多媒体信息的情况下,确定所述反馈标志位为第二标识;其中,所述第二标识用于指示用户未访问所述历史识别结果对应的多媒体资源。

6.根据权利要求2所述的服务器,其特征在于,所述处理器,进一步被配置为基于所述通信器获取的所述历史识别结果,生成包含所述历史识别结果的多媒体信息;

7.根据权利要求6所述的服务器,其特征在于,所述处理器,还被配置为在所述通信器未接收到所述电子设备访问所述多媒体信息的情况下,确定访问结果为未访问所述历史识别结果对应的多媒体信息。

8.一种语音识别方法,其特征在于,包括:

9.根据权利要求8所述的语音识别方法,其特征在于,所述获取电子设备发送的待识别音频流前,所述方法还包括:

10.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现权利要求1-7任一项所述的语音识别方法。

...

【技术特征摘要】

1.一种服务器,其特征在于,包括:

2.根据权利要求1所述的服务器,其特征在于,所述通信器,还被配置为获取所述用户账号的历史音频流对应的历史识别结果、以及是否访问所述历史识别结果对应的多媒体信息的访问结果;

3.根据权利要求2所述的服务器,其特征在于,所述处理器,进一步被配置为对所述通信器获取的所述历史识别结果进行实体词提取,确定所述历史识别结果中包含的实体词;

4.根据权利要求3所述的服务器,其特征在于,所述处理器,进一步被配置为在所述通信器获取的所述访问结果为已访问所述历史识别结果对应的多媒体信息的情况下,确定所述反馈标志位为第一标识;其中,所述第一标识用于指示用户已访问所述历史识别结果对应的多媒体资源。

5.根据权利要求3所述的服务器,其特征在于,所述处理器,进一步被配置为在所述通信器获取的所述访问结果为未访问所述历史识别结果对应的多媒体信息的情况下,确定...

【专利技术属性】
技术研发人员:马志强
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1