语音识别方法和装置制造方法及图纸

技术编号:30446149 阅读:14 留言:0更新日期:2021-10-24 18:38
本公开实施例提供了一种语音识别方法和装置,所述方法包括:获取待识别的语音数据;基于预设语音识别模型获取所述语音数据的文本数据;其中,获取预设语音识别模型的方法,包括:基于深度神经网络建立初始语音识别模型;基于所述初始语音识别模型获取语音样本对应的预测文本;分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,获取预设语音识别模型。该方法能够提高语音识别的准确性。该方法能够提高语音识别的准确性。该方法能够提高语音识别的准确性。

【技术实现步骤摘要】
语音识别方法和装置


[0001]本公开实施例涉及一种语音识别方法和装置。

技术介绍

[0002]语音识别广泛应用于人工智能场景,具有重要的现实意义和商业价值,然而当下语音识别的训练目标和评估标准都是基于简单的正确率,即通过判断识别出的文本结果与真实的文本结果之间的差异来判断系统的好坏,只关心具体的文字有没有出现,完全忽略了文本本身所表达的语义,使得系统识别出的文本容易出现逻辑不畅、语句不通等认知层面的问题。
[0003]人类语音交互的核心便在于传递语音所包含的语义,即使两句话的文字不完全一样,但只要语义一样,仍是可以接受的。机器语音识别与人类语音识别二者目标的不一致,导致了当下语音识别系统在真实的人机交互场景中只停留在表面的文字转录,并不考虑语义是否充分表达,大大降低了语音识别的准确性和使用体验。

技术实现思路

[0004]有鉴于此,本申请提供一种语音识别方法和装置,能够提高语音识别的准确性。
[0005]为解决上述技术问题,本申请的技术方案是这样实现的:
[0006]在一个实施例中,提供了一种语音识别方法,所述方法包括:
[0007]获取待识别的语音数据;
[0008]基于预设语音识别模型获取所述语音数据的文本数据;
[0009]其中,获取预设语音识别模型的方法,包括:
[0010]基于深度神经网络建立初始语音识别模型;
[0011]基于所述初始语音识别模型获取语音样本对应的预测文本;
[0012]分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;
[0013]基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,获取预设语音识别模型。
[0014]在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述语音识别方法的步骤。
[0015]在另一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述语音识别方法。
[0016]由上面的技术方案可见,上述实施例中基于预设语音识别模型获取所述语音数据的文本数据,其中的预设语音识别模型是通过参考文本和预测文本对应的隐空间表征来进行模型参数调整的,这样建立的预设语音识别模型能够结合语义对语音数据进行识别,进而提高语音识别的准确性。
附图说明
[0017]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本申请实施例中获取预设语音识别模型流程示意图;
[0019]图2为本申请实施例中调整识别模型参数流程示意图;
[0020]图3为本申请实施例中评估预设识别模型流程示意图;
[0021]图4为本申请实施例一中语音识别流程示意图;
[0022]图5为本申请实施例二中语音识别流程示意图;
[0023]图6为本申请实施例中语音识别装置结构示意图;
[0024]图7为本专利技术实施例提供的电子设备的实体结构示意图。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0027]下面以具体实施例对本专利技术的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0028]本申请实施例中提供一种语音识别方法,基于预设语音识别模型获取所述语音数据的文本数据,其中的预设语音识别模型是通过参考文本和预测文本对应的隐空间表征来进行模型参数调整的,这样建立的预设语音识别模型能够结合语义对语音数据进行识别,进而提高了语音识别的准确性。
[0029]本申请实施例中会预先获取预设语音识别模型,具体过程如下:
[0030]参见图1,图1为本申请实施例中获取预设语音识别模型流程示意图。具体步骤为:
[0031]步骤101,基于深度神经网络建立初始语音识别模型。
[0032]步骤102,基于所述初始语音识别模型获取语音样本对应的预测文本。
[0033]语音样本为用于训练模型的样本,并同时获取所述语音样本对应的参考文本;这里的参考文本为所述语音样本对应的真实文本。
[0034]步骤103,分别获取所述预测文本和参考文本对应的隐空间表征。
[0035]可以通过预设语言模型获取文本的隐空间表征。
[0036]具体实现时分别通过预设语言模型获取所述预测文本和参考文本对应的隐空间表征,即通过预设语言模型获取所述预测文本对应的隐空间表征,以及通过预设语言模型获取所述参考文本对应的隐空间表征。
[0037]所述预设语言模型可以是选择的任意神经网络结构或损失函数训练出来的模型,如基于Transformers的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)模型、第三代生成式预训练Transformer(Generative Pre

trained Transformer 3,GPT

3)模型等,但不限于此。
[0038]在具体实现时,通过预设语言模型获取的文本的隐空间表征既可以是固定长度,也可以是不定长度;具体选择获取哪种长度的隐空间表征可以根据实际需要选择什么样的语言模型,本申请实施例中对此不进行限制,针对参考文本和预测文本获取对应的隐空间表征时使用同一预设语言模型即可。
[0039]步骤104,基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整初始语音识别模型的参数,获取预设语音识别模型。
[0040]参见图2,图2为本申请实施例中调整识别模型参数流程示意图。具体步骤为:
[0041]步骤201,基于获取的预测文本的隐空间表征和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别的语音数据;基于预设语音识别模型获取所述语音数据的文本数据;其中,获取预设语音识别模型的方法,包括:基于深度神经网络建立初始语音识别模型;基于所述初始语音识别模型获取语音样本对应的预测文本;分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,获取预设语音识别模型。2.根据权利要求1所述的方法,其特征在于,所述基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,包括:基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数;基于所述损失函数通过梯度下降法调整初始语音识别模型的参数。3.根据权利要求2所述的方法,其特征在于,所述基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数,包括:计算所述预测文本的隐空间表征和所述参考文本的隐空间表征之间的距离,将所述距离作为损失函数。4.根据权利要求2所述的方法,其特征在于,所述基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数,包括:计算所述预测文本的隐空间表征和所述参考文本的...

【专利技术属性】
技术研发人员:汤志远李先刚邹伟解传栋沈明
申请(专利权)人:北京房江湖科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1