语音的识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36899079 阅读:9 留言:0更新日期:2023-03-18 09:19
本公开公开了一种语音的识别方法、装置、电子设备和存储介质,尤其涉及人工智能技术领域。其中,具体实现方案为:获取待识别的语音对应的频谱图;根据所述频谱图中每个特征点的特征值,确定所述频谱图中每个特征点对应的全局特征;根据所述频谱图中每个特征点的特征值及每个特征点所属的频段,确定所述频谱图中每个频段的频域特征;根据所述频谱图对应的全局特征以及所述每个频段的频域特征,确定待识别的频谱特征;对所述频谱特征进行识别,以确定所述语音对应的识别结果。由此,在进行语音识别的过程中,不仅考虑了频谱图中各个特征点的关系,并且考虑了频谱图中各个频段的频域特征,从而提高了语音识别结果的准确性和完整性。从而提高了语音识别结果的准确性和完整性。从而提高了语音识别结果的准确性和完整性。

【技术实现步骤摘要】
语音的识别方法、装置、电子设备和存储介质


[0001]本公开涉及计算机
,具体涉及深度学习、语音技术等人工智能
,尤其涉及一种语音的识别方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术的蓬勃发展,人工智能领域也得到了迅速发展,语音识别技术的应用也越来越广泛。相关技术中,通常使用语音识别模型进行语音识别,模型的准确性依赖于训练数据的规模以及训练数据中语音数据涵盖的发音类型的数量等。比如说,训练数据的规模足够大,但训练数据均为成人的语音数据,则使用经该训练数据训练得到的模型,对童声进行识别时,识别的准确性就较低。由此,如何提高语音识别的准确性,成为当前亟待解决的问题。

技术实现思路

[0003]本公开提供了一种语音的识别方法、装置、电子设备和存储介质。
[0004]本公开一方面,提供了一种语音的识别方法,包括:
[0005]获取待识别的语音对应的频谱图;
[0006]根据所述频谱图中每个特征点的特征值,确定所述频谱图中中每个特征点对应的全局特征;
[0007]根据所述频谱图中每个特征点的特征值及每个特征点所属的频段,确定所述频谱图中每个频段的频域特征;
[0008]根据所述频谱图对应的全局特征以及所述每个频段的频域特征,确定待识别的频谱特征;
[0009]对所述频谱特征进行识别,以确定所述语音对应的识别结果。
[0010]本公开的另一方面,提供了一种语音识别模型,包括:依次相连的N个语音特征提取模块以及语音识别模块,其中,N为大于1的正整数;
[0011]每个所述语音特征提取模块中包括卷积网络、全局注意力网络以及频域注意力网络;
[0012]所述卷积网络,用于对获取的语音特征进行卷积处理,以获取新的语音特征;
[0013]所述全局注意力网络,用于对所述新的语音特征进行处理,以输出所述新的语音特征的全局特征;
[0014]所述频域注意力网络,用于对所述新的语音特征进行处理,以确定所述新的语音特征中每个频段的频域特征;
[0015]所述语音识别模块,用于对第N个语音特征提取模块输出的全局特征及频域特征进行识别,以输出识别结果。
[0016]本公开的另一方面,提供了一种语音的识别装置,包括:
[0017]获取模块,用于获取待识别的语音对应的频谱图;
[0018]第一确定模块,用于根据所述频谱图中每个特征点的特征值,确定所述频谱图中中每个特征点对应的全局特征;
[0019]第二确定模块,用于根据所述频谱图中每个特征点的特征值及每个特征点所属的频段,确定所述频谱图中每个频段的频域特征;
[0020]第三确定模块,用于根据频谱图对应的全局特征以及所述每个频段的频域特征,确定待识别的频谱特征;
[0021]识别模块,用于对所述频谱特征进行识别,以确定所述语音对应的识别结果。
[0022]本公开的另一方面,提供了一种电子设备,包括:
[0023]至少一个处理器;以及
[0024]与所述至少一个处理器通信连接的存储器;其中,
[0025]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的语音的识别方法。
[0026]本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的语音的识别方法。
[0027]本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述一方面实施例所述的语音的识别方法。
[0028]本公开提供的语音的识别方法、装置、电子设备和存储介质,可以先获取待识别的语音对应的频谱图,之后根据频谱图中每个特征点的特征值,确定频谱图中各个特征点之间的关联矩阵,之后可以根据频谱图中每个特征点的特征值及每个特征点所属的频段,确定频谱图中每个频段的频域特征,再根据每个特征点的特征值、关联矩阵以及每个频段的频域特征,确定待识别的频谱特征,之后对频谱特征进行识别,以确定待识别的语音对应的识别结果。由此,在进行语音识别的过程中,不仅考虑了频谱图中各个特征点的关系,并且考虑了频谱图中各个频段的频域特征,从而提高了语音识别结果的准确性和完整性。
[0029]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0031]图1为本公开一实施例提供的一种语音的识别方法的流程示意图;
[0032]图2为本公开另一实施例提供的一种语音的识别方法的流程示意图;
[0033]图3为本公开又一实施例提供的一种语音的识别方法的流程示意图;
[0034]图4为本公开一实施例提供的一种语音识别模型的结构示意图;
[0035]图4A为本公开一实施例提供的一种语音识别模型的结构示意图;
[0036]图5为本公开另一实施例提供的一种语音的识别装置的结构示意图;
[0037]图6为用来实现本公开实施例的语音的识别方法的电子设备的框图。
具体实施方式
[0038]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0039]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0040]深度学习是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
[0041]下面参考附图描述本公开实施例的语音的识别方法、装置、电子设备和存储介质。
[0042]本公开实施例的语音的识别方法,可由本公开实施例提供的语音的识别装置执行,该装置可配置于电子设备中。
[0043]图1为本公开实施例提供的一种语音的识别方法的流程示意图。
[0044]如图1所示,该语音的识别方法,可以包括以下步骤:
[0045]步骤101,获取待识别的语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音的识别方法,其特征在于,包括:获取待识别的语音对应的频谱图;根据所述频谱图中每个特征点的特征值,确定所述频谱图中每个特征点对应的全局特征;根据所述频谱图中每个特征点的特征值及每个特征点所属的频段,确定所述频谱图中每个频段的频域特征;根据所述频谱图对应的全局特征以及所述每个频段的频域特征,确定待识别的频谱特征;对所述频谱特征进行识别,以确定所述语音对应的识别结果。2.如权利要求1所述的方法,其特征在于,所述根据所述频谱图中每个特征点的特征值,确定所述频谱图中每个特征点对应的全局特征,包括:根据所述频谱图中每个特征点的特征值,确定所述频谱图中各个特征点之间的关联矩阵;根据所述关联矩阵及每个所述特征点的特征值,确定所述全局特征。3.如权利要求2所述的方法,其特征在于,所述根据所述频谱图中每个特征点的特征值,确定所述频谱图中各个特征点之间的关联矩阵,包括:基于第一映射函数及第二映射函数,分别将所述频谱图进行线性映射,以获取变换后的第一矩阵以及第二矩阵;将所述第一矩阵及所述第二矩阵进行点乘,以确定所述关联矩阵。4.如权利要求1所述的方法,其特征在于,所述根据所述频谱图中每个特征点的特征值及每个特征点所属的频段,确定所述频谱图中每个频段的频域特征,包括:根据所述频谱图中每个特征点的特征值及每个特征点所属的频段,确定每个频段对应的特征均值;将每个特征点的特征值减去所属频段对应的特征均值,确定为每个特征点对应的更新后的特征值;将每个频段中更新后的最大特征值,确定为每个频段的频域特征。5.如权利要求1所述的方法,其特征在于,所述根据所述全局特征以及所述每个频段的频域特征,确定待识别的频谱特征,包括:将所述每个频段的频域特征进行归一化处理,以确定每个所述频段的频域特征在所述待识别的语音中的频域权重;根据每个所述频段的频域权重及所述全局特征,确定所述待识别的频谱特征。6.一种语音识别模型,其特征在于,包括:依次相连的N个语音特征提取模块以及语音识别模块,其中,N为大于1的正整数;每个所述语音特征提取模块中包括卷积网络、全局注意力网络以及频域注意力网络;所述卷积网络,用于对获取的语音特征进行卷积处理,以获取新的语音特征;所述全局注意力网络,用于对所述新的语音特征进行处理,以输出所述新的语音特征的全局特征;所述频域注意力网络,用于对所述新的语音特征进行处理,以确定所述新的语音特征中每个频段的频域特征;
所述语音识别模块,用于对第N个语音特征提取模块输出的全局特征及频域特征进行识别,以输出识别...

【专利技术属性】
技术研发人员:魏文琦林倩倩高强蒋栋蔚
申请(专利权)人:北京猿力未来科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1