语音识别的方法、装置、电子设备和介质制造方法及图纸

技术编号:35600457 阅读:28 留言:0更新日期:2022-11-16 15:21
本公开的实施例涉及语音识别的方法、装置、电子设备和介质。该方法包括获取流式语音的声学表示和流式语音的已识别部分的语义表示。该方法还包括获取流式语音的对话上下文。该方法还包括基于声学表示、流式语音的已识别部分的语义表示和对话上下文,生成流式语音的识别结果。通过本公开的实施例能够使得语音识别的准确度更高。别的准确度更高。别的准确度更高。

【技术实现步骤摘要】
语音识别的方法、装置、电子设备和介质


[0001]本公开的实施例涉及计算机领域,并且更具体地,涉及语音识别的方法、装置、电子设备和介质。

技术介绍

[0002]语音识别是指对说出的语音进行识别,并将其转换成对应文字的技术。随着自然语言处理技术的发展,已经具有对以流式传输方式接收的语音进行识别的技术。在以流式传输方式接收的语音中,语音识别模型无法感知到用户在下文所说的内容,只能知道当前语句的历史信息,因此识别的难度较大,导致识别率较差。

技术实现思路

[0003]本公开的实施例提供了一种语音识别的方法、装置、电子设备和计算机可读存储介质。
[0004]根据本公开的第一方面,提供了一种语音识别的方法。该方法包括获取流式语音的声学表示和流式语音的已识别部分的语义表示。该方法还包括获取流式语音的对话上下文。该方法还包括基于声学表示、流式语音的已识别部分的语义表示和对话上下文,生成流式语音的识别结果。
[0005]在本公开的第二方面中,提供了一种语音识别的装置。该装置包括语音获取模块,被配置为获取流式语音的声学表示和流式语音的已识别部分的语义表示。该装置还包括上下文获取模块,被配置为获取流式语音的对话上下文。该装置还包括识别结果生成模块,被配置为基于声学表示、流式语音的已识别部分的语义表示和对话上下文,生成流式语音的识别结果。
[0006]根据本公开的第三方面,提供了一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使电子设备执行根据第一方面所述的方法。
[0007]在本公开的第四方面中,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现根据第一方面所述的方法。
[0008]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
[0009]结合附图并参考以下详细说明,本公开各实施例的上述和其它特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0010]图1示出了根据本公开的某些实施例的语音识别方法能够在其中实现的示例环境
的示意图;
[0011]图2示出了根据本公开的某些实施例的语音识别方法的流程图;
[0012]图3示出了根据本公开的一个实施例的语音识别的过程的示意图;
[0013]图4示出了根据本公开的另一个实施例的语音识别的过程的示意图;
[0014]图5示出了根据本公开的某些实施例的确定语义关联表示的过程的示意图;
[0015]图6示出了根据本公开的某些实施例的用于语音识别的装置的框图;以及
[0016]图7示出了根据本公开的某些实施例的用于语音识别的设备的框图。
[0017]在所有附图中,相同或相似参考数字表示相同或相似元素。
具体实施方式
[0018]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0019]例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0020]作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
[0021]可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
[0022]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
[0023]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0024]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包括,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。
[0025]在本公开中使用的术语“语音”是指设备接收到的声音,例如用户说话的声音。术语“流式语音”特指以流式传输方式接收的语音,以在线语音识别过程作为示例,语音识别模型一边接收语音,一边实时输出识别结果,其识别延迟较小。术语“对话上下文”是指,在对话中,两个用户之间可以交替说话,每一次交替可以被称为一轮(例如,一问一答的过程),因此一轮对话中的先前的一句或几句话可以体现对话参与者的意图,这些能体现对话参与者意图的语音被称为“对话上下文”。可以理解,“对话上下文”作为整体来使用,是指对
话的语境,不能被拆分为“上文”和“下文”,“对话上下文”是指对话中当前语句的历史信息。
[0026]在本公开中使用的术语“文本”是指以文字呈现的语音的内容,其具有思想内容和含义,能被掌握该语言的使用者理解,并且在本公开中“文本”与“字”可以互换使用。在本公开中使用的术语“表示”是指将文本映射为对应的向量,例如词嵌入向量,以便于计算系统处理。可以使用的将文本映射为表示的技术的示例可以是已知的word2vec技术或one hot技术,也可以使用经过训练的编码器将文本编码为与其相对应的更高维度的表示,本公开对此不做限制。
[0027]在本文中使用的术语“识别”是指将“语音”转换为“文本”的过程。在本公开的上下文中,为讨论描述方便之目的,使用两个用户之间的问答过程作为语音识别过程的示例。通常,识别过程可以借助于相应的语音识别模型来实现。因此,在下文描述中有时将使用术语“模型”或“层”来指代相应的语音识别过程。
[0028]在本文中使用的术语“训练”或“学习”是指利用经验或者数据优化系统性能的过程。例如,语音识别系统可以通过训练或学习过程,逐渐优化语音识别性能,例如提高识别出的文本的准确性。在本公开的上下文中,为讨论方便之目的,术语“训练”或者“学习”可以互换使用。
[0029]在本文中使用的术语“语音识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:获取流式语音的声学表示和所述流式语音的已识别部分的语义表示;获取所述流式语音的对话上下文;以及基于所述声学表示、所述流式语音的所述已识别部分的所述语义表示和所述对话上下文,生成所述流式语音的识别结果。2.根据权利要求1所述的方法,其中获取所述流式语音的对话上下文包括:将所述声学表示和所述语义表示中的至少一项确定为查询向量;确定与所述对话上下文的语义相关联的键值对;以及基于所述查询向量与所述键值对中的键的语义相关性来确定所述对话上下文相对于所述流式语音的语义关联表示。3.根据权利要求2所述的方法,其中基于所述声学表示、所述语义表示和所述对话上下文,生成所述流式语音的识别结果包括:将所述语义关联表示与所述语义表示进行混合以获得混合后的语义表示;以及基于所述声学表示和所述混合后的语义表示,生成所述流式语音的所述识别结果。4.根据权利要求3所述的方法,其中基于所述声学表示和所述混合后的语义表示,生成所述流式语音的所述识别结果包括:基于所述声学表示和所述混合后的语义表示,确定多个候选识别结果的相应概率;以及将所述多个候选识别结果中的概率最大的候选识别结果确定为所述识别结果。5.根据权利要求4所述的方法,其中所述识别结果和所述候选识别结果是文本,并且基于所述声学表示和所述混合后的语义表示,确定多个候选结果的相应概率包括:基于所述声学表示、所述混合后的语义表示以及用于语音识别的字典,确定所述文本的概率表示;以及对所述概率表示进行归一化以获取所述文本的相应概率。6.根据权利要求2所述的方法,其中基于所述声学表示、所述语义表示和所述对话上下文,生成所述流式语音的识别结果包括:将所述语义关联表示与所述声学表示进行混合以获得混合后的声学表示;以及基于所述语义表示和所述混合后的声学表示,生成所述流式语音的所述识别结果。7.根据权利要求6所述的方法,其中基于所述语义表示和所述混合后的声学表示,生成所述流式语音的所述识别结果包括:基于所述语义表示和所述混合后的声学表示,确定多个候选识别结果的相应概率;以及...

【专利技术属性】
技术研发人员:陈金坤侯俊峰李婉瑜张骏马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1