语音识别方法、装置及电子设备制造方法及图纸

技术编号:36696004 阅读:26 留言:0更新日期:2023-02-27 20:08
本申请实施例提供了一种语音识别方法、装置及电子设备,其中,语音识别方法包括:获取待识别的语音帧数据对应的语音表征向量和说话人表征向量;对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在所述发射阈值的范围内的语音表征向量生成发射向量;根据所述发射向量和所述说话人表征向量,为所述发射向量确定对应的文本及所述文本对应的说话人。通过本申请实施例,提高了语音识别和说话人标记的准确度。人标记的准确度。人标记的准确度。

【技术实现步骤摘要】
语音识别方法、装置及电子设备


[0001]本申请实施例涉及人工智能
,尤其涉及一种语音识别方法、装置、及电子设备。

技术介绍

[0002]语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本的技术,随着语音识别技术的发展,其被应用于诸如会议场景、智能客服场景、在线医疗场景中等多种场景中。
[0003]对于大部分的语音识别任务,其针对的语音中至少包含有一个说话人的声音,更多时候包含有多个说话人的声音。目前的语音识别任务会通过语音识别子任务和说话人日志子任务,这两个子任务进行系统级联实现将语音转换为不同说话人对应的不同文本。其中,这两个子任务通过对应的两个单独的机器学习模型分别实现,并分别进行优化后使用。然而,这种方式因模型间任务信息交互有限,且需要单独进行相应的优化和处理后,还需级联使用,导致语音识别效率低下,且准确度也不够高。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种语音识别方案,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种语音识别方法,包括:获取待识别的语音帧数据对应的语音表征向量和说话人表征向量;对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在所述发射阈值的范围内的语音表征向量生成发射向量;根据所述发射向量和所述说话人表征向量,为所述发射向量确定对应的文本及所述文本对应的说话人。
[0006]根据本申请实施例的第二方面,提供了一种语音识别装置,包括:包括语音识别分支单元和说话人识别分支单元,其中,所述语音识别分支单元包括:语音识别编码器、连续整合发射模块、和语音识别解码器;所述说话人识别分支单元包括:说话人编码器、和说话人解码器;所述语音识别编码器,用于对待识别的语音帧数据对应的声学特征进行语音特征提取,获得对应的语音表征向量;所述连续整合发射模块,用于对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在所述发射阈值的范围内的语音表征向量生成发射向量并将所述发射向量发射至所述说话人解码器;所述说话人编码器,用于对所述待识别的语音帧数据对应的声学特征进行说话人特征提取,获得对应的说话人表征向量;所述说话人解码器,用于接收所述发射向量,并根据所述发射向量和所述说话人表征向量,确定所述发射向量对应的说话人;所述语音识别解码器,用于将所述发射向量转换为文本,并根据所述发射向量对应的说话人的信息,确定所述文本对应的说话人。
[0007]根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间
的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述方法对应的操作。
[0008]根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
[0009]根据本申请实施例提供的方案,在需要进行语音识别并标记相应说话人的场景中,一方面,会基于语音识别任务的语音表征向量生成发射向量,并与说话人识别任务的说话人表征向量相结合,从而,实现了两者在特征生成阶段的任务信息交互,以使得在对语音进行说话人识别时,即有效融合了语音特征和说话人特征,从而提高了语音识别和说话人标记的准确度。另一方面,本申请实施例的方案中,对语音帧文本激活值的预测是并行的,也即,可以同时对多个语音帧的语音表征向量进行预测,并在达到发射阈值时生成发射向量,相较于传统方式中在处理每个语音帧时均需对该语音帧对应的字符的上下文语音帧进行处理的方式,可以大大提高处理速度和效率。可见,通过本申请实施例,既降低了语音识别任务和说话人识别任务之间的交互复杂度,又提高了整体识别效率。
附图说明
[0010]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0011]图1为适用本申请实施例方案的示例性系统的示意图;图2A为根据本申请实施例一的一种语音识别装置的结构框图;图2B为图2A所示实施例中的一种语音识别装置对应的模型的结构示意图;图3A为根据本申请实施例二的一种语音识别方法的步骤流程图;图3B为图3A所示实施例中的一种场景示例图;图4为根据本申请实施例三的一种电子设备的结构示意图。
具体实施方式
[0012]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0013]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0014]图1示出了一种适用本申请实施例的示例性系统。如图1所示,该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106,图1中示例为多个用户设备。
[0015]云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备,包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中,云服务端102可以执行任何适当的功能。例如,在一些实施例中,云服务端102可以用于语音识别并标记说话人。作为可选的示例,在一些实施例中,云服务端102可以被用于基于语音识别任务和说话人识别任务之间的交互,来进行语音识别并标记说话人。
在一些实施例中,云服务端102可以通过对待识别的语音帧数据对应的语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在发射阈值的范围内的语音表征向量生成发射向量;进而通过该发射向量和待识别的语音帧数据对应的说话人表征向量,实现语音识别任务和说话人识别任务之间的交互,最终为发射向量确定对应的文本及文本对应的说话人。作为另一示例,在一些实施例中,云服务端102可以被用于通过用户设备106获取待识别的语音帧数据,并且,在通过上述过程获得发射向量对应的文本及文本对应的说话人后,发送给用户设备106。
[0016]在一些实施例中,通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络104能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(Wide Area Network,WAN)、局域网(Local Area Network ,LAN)、无线网络、数字订户线路(Digital Subscriber Line,DSL)网络、帧中继网络、异步转移模式(Asynchronous Transfe本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:获取待识别的语音帧数据对应的语音表征向量和说话人表征向量;对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在所述发射阈值的范围内的语音表征向量生成发射向量;根据所述发射向量和所述说话人表征向量,为所述发射向量确定对应的文本及所述文本对应的说话人。2.根据权利要求1所述的方法,其中,所述对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达到发射阈值时,根据在所述发射阈值的范围内的语音表征向量生成发射向量,包括:针对所述语音帧数据包含的多帧语音帧中的每一帧语音帧,对该语音帧对应的语音表征向量进行文本激活值预测;根据该语音帧与在该语音帧之前的至少一个语音帧的文本激活值之和,确定当前文本激活值之和是否达到发射阈值;若达到所述发射阈值,则将在所述发射阈值的范围内的文本激活值所对应的语音表征向量生成发射向量。3.根据权利要求1或2所述的方法,其中,所述根据所述发射向量和所述说话人表征向量,为所述发射向量确定对应的文本及所述文本对应的说话人,包括:根据所述发射向量、所述说话人表征向量、所述语音表征向量和预设的说话人声音特征向量,为所述发射向量确定对应的文本,以及,所述文本中的每个字符对应的说话人。4.根据权利要求3所述的方法,其中,所述根据所述发射向量、所述说话人表征向量、所述语音表征向量和预设的说话人声音特征向量,为所述发射向量确定对应的文本,以及,所述文本中的每个字符对应的说话人,包括:根据所述发射向量、所述说话人表征向量、和所述语音表征向量进行注意力计算,获得所述发射向量中对应于每个字符的向量所对应的声音特征;根据预设的说话人声音特征向量,为所述每个字符的向量所对应的声音特征确定对应的说话人;根据所述每个字符的向量和所述向量对应的说话人,确定每个字符文本及每个字符文本对应的说话人。5.根据权利要求4所述的方法,其中,在所述根据预设的说话人声音特征向量,为所述每个字符的向量所对应的声音特征确定对应的说话人之前,所述方法还包括:检测是否需要对所述每个字符的向量所对应的声音特征进行修正,若需要,则进行修正;所述根据预设的说话人声音特征向量,为所述每个字符的向量所对应的声音特征确定对应的说话人,包括:根据预设的说话人声音特征向量,为修正后的所述每个字符的向量所对应的声音特征确定对应的说话人。6.根据权利要求1或2所述的方法,其中,所述为所述发射向量确定对应的文本,包括:根据所述发射向量和所述语音表征向量,为所述发射向量确定对应的文本。7.根据权利要求6所述的方法,其中,所述根据所述发射向量和所述语音表征向量,为所述发射向量确定对应的文本,包括:
对所述发射向量和所述语音表征向量进行注意力计算;根据注意力计算结果,为所述发射向量确定对应的文本。8.根据权利要求1所述的方法,其中,所述语音识别方法通过语音识别模型执行;所述语音识别模型包括语音识别分支和说话人识别分支,其中,所述语音识别分支包括:语音识别编码器、连续整合发射层、和语音识别解码器;所述说话人识别分支包括:说话人编码器、和说话人解码器;所述语音识别编码器,用于对所述待识别的语音帧数据对应的声学特征进行语音特征提取,获得对应的语音表征向量;所述连续整合发射层,用于对所述语音表征向量进行并行的语音帧文本激活值预测,并在预测结果指示语音帧文本激活值达...

【专利技术属性】
技术研发人员:杜志浩张仕良林宇箫
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1