语音识别方法和装置制造方法及图纸

技术编号：30446149 阅读：14 留言：0更新日期：2021-10-24 18:38

本公开实施例提供了一种语音识别方法和装置，所述方法包括：获取待识别的语音数据；基于预设语音识别模型获取所述语音数据的文本数据；其中，获取预设语音识别模型的方法，包括：基于深度神经网络建立初始语音识别模型；基于所述初始语音识别模型获取语音样本对应的预测文本；分别获取所述预测文本和参考文本对应的隐空间表征；其中，所述参考文本为所述语音样本对应的真实文本；基于获取的预测文本的隐空间表征和参考文本的隐空间表征，调整所述初始语音识别模型的参数，获取预设语音识别模型。该方法能够提高语音识别的准确性。该方法能够提高语音识别的准确性。该方法能够提高语音识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法和装置

[0001]本公开实施例涉及一种语音识别方法和装置。

技术介绍

[0002]语音识别广泛应用于人工智能场景，具有重要的现实意义和商业价值，然而当下语音识别的训练目标和评估标准都是基于简单的正确率，即通过判断识别出的文本结果与真实的文本结果之间的差异来判断系统的好坏，只关心具体的文字有没有出现，完全忽略了文本本身所表达的语义，使得系统识别出的文本容易出现逻辑不畅、语句不通等认知层面的问题。
[0003]人类语音交互的核心便在于传递语音所包含的语义，即使两句话的文字不完全一样，但只要语义一样，仍是可以接受的。机器语音识别与人类语音识别二者目标的不一致，导致了当下语音识别系统在真实的人机交互场景中只停留在表面的文字转录，并不考虑语义是否充分表达，大大降低了语音识别的准确性和使用体验。

技术实现思路

[0004]有鉴于此，本申请提供一种语音识别方法和装置，能够提高语音识别的准确性。
[0005]为解决上述技术问题，本申请的技术方案是这样实现的：
[0006]在一个实施例中，提供了一种语音识别方法，所述方法包括：
[0007]获取待识别的语音数据；
[0008]基于预设语音识别模型获取所述语音数据的文本数据；
[0009]其中，获取预设语音识别模型的方法，包括：
[0010]基于深度神经网络建立初始语音识别模型；
[0011]基于所述初始语音识别模型获取语音样本对应的预测文本；
[0012]分别获取所述预测文本和参考文本...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取待识别的语音数据；基于预设语音识别模型获取所述语音数据的文本数据；其中，获取预设语音识别模型的方法，包括：基于深度神经网络建立初始语音识别模型；基于所述初始语音识别模型获取语音样本对应的预测文本；分别获取所述预测文本和参考文本对应的隐空间表征；其中，所述参考文本为所述语音样本对应的真实文本；基于获取的预测文本的隐空间表征和参考文本的隐空间表征，调整所述初始语音识别模型的参数，获取预设语音识别模型。2.根据权利要求1所述的方法，其特征在于，所述基于获取的预测文本的隐空间表征和参考文本的隐空间表征，调整所述初始语音识别模型的参数，包括：基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数；基于所述损失函数通过梯度下降法调整初始语音识别模型的参数。3.根据权利要求2所述的方法，其特征在于，所述基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数，包括：计算所述预测文本的隐空间表征和所述参考文本的隐空间表征之间的距离，将所述距离作为损失函数。4.根据权利要求2所述的方法，其特征在于，所述基于获取的预测文本的隐空间表征和参考文本的隐空间表征构建损失函数，包括：计算所述预测文本的隐空间表征和所述参考文本的...

【专利技术属性】
技术研发人员：汤志远，李先刚，邹伟，解传栋，沈明，
申请(专利权)人：北京房江湖科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人