语音识别方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:32963168 阅读:16 留言:0更新日期:2022-04-09 10:57
本申请公开了一种语音识别方法、装置、设备、存储介质及程序产品,涉及人工智能领域。该方法包括:获取语音信号流;提取语音序列嵌入特征;对语音序列嵌入特征进行融合,得到融合特征;对融合特征进行递归估计,得到说话人嵌入特征;基于说话人嵌入特征对语音序列嵌入特征进行说话人识别,得到说话人识别结果。在对语音进行说话人识别从而生成说话人日志的过程中,通过对融合特征进行递归估计,得到各个说话人分别对应的说话人嵌入特征,从而通过注意力机制得到说话人识别结果,使得所有的参数都可以利用到解码的过程中,从而提高了对语音进行说话人识别的准确率。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。场景。场景。

【技术实现步骤摘要】
语音识别方法、装置、设备、存储介质及程序产品


[0001]本申请实施例涉及人工智能领域,特别涉及一种语音识别方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]说话人日志是指在采集的语音信号流中,通过分辨出不同说话人的说话阶段对语音信号流进行标注,从而检测出每段语音对应的说话人的身份,说话人日志应用于会议记录、客服工作监督等多种场景中。
[0003]相关技术中,在针对语音信号流生成说话人日志时,对语音信号流中的语音帧进行编码,得到每一帧语音帧的嵌入层向量,然后通过长短期记忆模块(Long Short

Term Memory,LSTM)得到语音信号流的编码向量,以及从语音信号流的编码向量中解码出说话人数信息,后续将每一帧语音帧的解码向量和编码向量结合后进行与说话人对应的概率预测,从而确定每一帧对应的说话人信息。
[0004]然而,上述说话人日志生成方式中,编码向量的信息利用不充分,导致说话人识别的准确率较低,也即说话人日志生成的准确率较低。

技术实现思路

[0005]本申请实施例提供了一种语音识别方法、装置、设备、存储介质及程序产品,能够提高说话人日志的生成准确率。所述技术方案如下:
[0006]一方面,提供了一种语音识别方法,所述方法包括:
[0007]获取语音信号流,所述语音信号流为待进行说话人识别的语音,所述语音信号流中包括语音帧;
[0008]提取所述语音帧的语音序列嵌入特征,所述语音序列嵌入特征是通过预训练的编码器提取得到的特征;
[0009]对所述语音帧的语音序列嵌入特征进行融合,得到融合特征;
[0010]对所述融合特征进行递归估计,得到说话人分别对应的说话人嵌入特征;
[0011]基于所述说话人嵌入特征通过注意力机制对所述语音序列嵌入特征进行说话人识别,得到所述语音帧分别对应的说话人识别结果,所述语音帧对应的说话人识别结果构成所述语音信号流对应的说话人日志。
[0012]另一方面,提供了一种语音识别装置,所述装置包括:
[0013]获取模块,用于获取语音信号流,所述语音信号流为待进行说话人识别的语音,所述语音信号流中包括语音帧;
[0014]提取模块,用于提取所述语音帧的语音序列嵌入特征,所述语音序列嵌入特征是通过预训练的编码器提取得到的特征;
[0015]融合模块,用于对所述语音帧的语音序列嵌入特征进行融合,得到融合特征;
[0016]估计模块,用于对所述融合特征进行递归估计,得到说话人分别对应的说话人嵌
入特征;
[0017]识别模块,用于基于所述说话人嵌入特征通过注意力机制对所述语音序列嵌入特征进行说话人识别,得到所述语音帧分别对应的说话人识别结果,所述语音帧对应的说话人识别结果构成所述语音信号流对应的说话人日志。
[0018]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的语音识别方法。
[0019]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的语音识别方法。
[0020]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的语音识别方法。
[0021]本申请实施例提供的技术方案带来的有益效果至少包括:
[0022]在对语音进行说话人识别从而生成说话人日志的过程中,通过对融合特征进行递归估计,得到各个说话人分别对应的说话人嵌入特征,从而在说话人嵌入特征的基础上通过注意力(Attention)机制得到说话人识别结果,改进LSTM,避免输入的零向量来解码,使得所有的参数都可以利用到解码的过程中,提高了LSTM的利用效率,从而提高了对语音进行说话人识别的准确率。
附图说明
[0023]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本申请一个示例性实施例提供的说话人日志的示意图;
[0025]图2是本申请一个示例性实施例提供的语音识别模型的架构示意图;
[0026]图3是本申请一个示例性实施例提供的实施环境示意图;
[0027]图4是本申请一个示例性实施例提供的语音识别方法的流程图;
[0028]图5是本申请另一个示例性实施例提供的语音识别方法的流程图;
[0029]图6是本申请另一个示例性实施例提供的语音识别方法的流程图;
[0030]图7是本申请一个示例性实施例提供的语音识别装置的结构框图;
[0031]图8是本申请另一个示例性实施例提供的语音识别装置的结构框图;
[0032]图9是本申请一个示例性的实施例提供的计算机设备的结构框图。
具体实施方式
[0033]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方
式作进一步地详细描述。
[0034]说话人日志是指在采集的语音信号流中,通过分辨出不同说话人的说话阶段对语音信号流进行标注,从而检测出每段语音对应的说话人的身份,说话人日志应用于会议记录、客服工作监督等多种场景中。
[0035]示意性的,请参考图1,其示出了本申请一个示例性实施例提供的说话人日志的示意图。如图1所示,针对语音信号流100识别得到说话人110的说话片段以及说话人120的说话片段。
[0036]相关技术中,在说话人日志的生成过程中,对语音信号流中的语音帧进行编码,得到每一帧语音帧的编码向量,然后通过长短期记忆模块(Long Short

Term Memory,LSTM)得到语音信号流的编码向量,以及从语音信号流的编码向量中解码出说话人数信息,后续将每一帧语音帧的解码向量和编码向量结合后进行与说话人对应的概率预测,从而确定每一帧对应的说话人信息。而该方式在生成说话人日志时,编码向量的信息利用不充分,导致说话人识别的准确率较低,也即说话人日志生成的准确率较低。
[0037]基于上述问题,图2是本申请一个示例性实施例提供的语音识别模型的架构示意图,如图2所示,在语音识别模型200中,包括基于自注意力(Self

Attention,SA)端到端说话人验证(End<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取语音信号流,所述语音信号流为待进行说话人识别的语音,所述语音信号流中包括语音帧;提取所述语音帧的语音序列嵌入特征,所述语音序列嵌入特征是通过预训练的编码器提取得到的特征;对所述语音帧的语音序列嵌入特征进行融合,得到融合特征;对所述融合特征进行递归估计,得到说话人分别对应的说话人嵌入特征;基于所述说话人嵌入特征通过注意力机制对所述语音序列嵌入特征进行说话人识别,得到所述语音帧分别对应的说话人识别结果,所述语音帧对应的说话人识别结果构成所述语音信号流对应的说话人日志。2.根据权利要求1所述的方法,其特征在于,所述对所述语音帧的语音序列嵌入特征进行融合,得到融合特征,包括:生成所述语音序列嵌入特征对应的堆叠序列;对所述堆叠序列进行统计池化处理,得到所述融合特征。3.根据权利要求2所述的方法,其特征在于,所述对所述堆叠序列进行统计池化处理,得到所述融合特征,包括:获取所述堆叠序列对应的均值和标准差;对所述均值和所述标准差进行拼接,得到所述融合特征。4.根据权利要求2所述的方法,其特征在于,所述对所述融合特征进行递归估计,得到说话人分别对应的说话人嵌入特征,包括:通过长短期记忆网络对所述融合特征进行递归估计,得到n层掩膜特征,n为正整数;基于第i层掩膜特征与第i

1层融合特征确定第i个说话人对应的说话人嵌入特征,0<i≤n。5.根据权利要求4所述的方法,其特征在于,所述基于第i层掩膜特征与第i

1层融合特征确定第i个说话人对应的说话人嵌入特征,包括:将所述第i层掩膜特征与第i

1层融合特征的乘积确定为第i个说话人对应的说话人嵌入特征。6.根据权利要求5所述的方法,其特征在于,所述基于所述说话人嵌入特征通过注意力机制对所述语音序列嵌入特征进行说话人识别,得到所述语音帧分别对应的说话人识别结果,包括:通过所述注意力机制和所述语音序列嵌入特征对所述说话人嵌入特征进行查询,得到与所述说话人嵌入特征分别对应的吸引子;基于所述吸引子对所述语音帧的语音序列嵌入特征进行说话人识别,得到所述语音帧分别对应的说话人识别结果。7.根据权利要求6所述的方法,其特征在于,所述通过所述注意力机制和所述语音序列嵌入特征对所述说话人嵌入特征进行查询,得到与所述说话人嵌入特征分别对应的吸引子,包括:将所述堆叠序列投影至键矩阵和值矩阵;根据所述说话人嵌入特征构建查询矩阵;
根据所述键矩阵、所述值矩阵和所述查询矩阵对所述说话人嵌入特征进行查询,得到与所述说话人嵌入特征分别对应的吸引子。8.根据权利要求6所述的方法,其特征在于,所述基于所述吸引子对...

【专利技术属性】
技术研发人员:程路遥孙思宁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1