一种语音识别方法和相关装置制造方法及图纸

技术编号：33113492 阅读：31 留言：0更新日期：2022-04-17 00:06

本申请实施例公开了一种语音识别方法和相关装置，至少涉及人工智能中的语音识别技术，将待识别的语音数据作为声学模型中时延神经网络的输入数据，由于该时延神经网络的输出层包括与多个音节分别对应的声学建模单元，使得通过时延神经网络能以音节为识别粒度，得到语音数据所包括语音帧分别对应的音节概率分布。通过输出层以音节进行识别时，可以结合语音帧的前后音节信息，基于发音规则对语音帧所属音节进行辅助判断，以输出更为精准的音节概率分布。而且由于音节一般由一个或多个音素组成，具有更高的容错能力，不仅基于音节概率分布获取更为准确的确定语音识别结果，还对待识别的语音数据质量要求不高，有效扩展了语音识别技术的适用场景。别技术的适用场景。别技术的适用场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法和相关装置

[0001]本申请涉及语音识别领域，特别是涉及一种语音识别方法和相关装置。

技术介绍

[0002]通过语音识别技术可以为用户提供语音内容的识别服务，该技术可以应用于各种场景中，例如语音转文字、语音唤醒、人机交互等场景。在具体实现中，可以通过声学模型提取待识别的语音数据的声学特征，并基于声学特征确定对应的语音识别结果。
[0003]相关技术主要以音素(phone)作为声学模型的建模单元，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。
[0004]但是，音素的建模粒度较细，这种细粒度的语音识别方式对待识别语音数据的质量要求很高，细微的发音误差都可能会直接影响识别结果。由此导致语音识别技术难以适应一些语音识别场景。

技术实现思路

[0005]为了解决上述技术问题，本申请提供了一种语音识别方法和相关装置，用于提高语音识别结果的准确率，扩展语音识别技术的使用场景。
[0006]一方面，本申请实施例提供一种语音识别方法

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取声学模型和待识别的语音数据，所述声学模型包括时延神经网络，所述时延神经网络的输出层包括与多个音节分别对应的声学建模单元；将所述语音数据作为所述时延神经网络的输入数据，通过所述时延神经网络确定所述语音数据所包括语音帧分别对应的音节概率分布，所述音节概率分布用于标识所述语音帧与所述多个音节分别对应的概率；根据所述音节概率分布确定所述语音数据对应的语音识别结果。2.根据权利要求1所述的方法，其特征在于，所述声学模型还包括解码器，所述根据所述音节概率分布确定所述语音数据对应的语音识别结果，包括：根据所述语音数据对应的唤醒场景，确定与所述唤醒场景对应的关键词；根据所述音节概率分布，通过所述解码器确定用于标识所述语音数据中是否包括所述关键词的语音识别结果；所述方法还包括：若所述语音识别结果指示所述语音数据中包括所述关键词，将所述唤醒场景对应终端设备唤醒。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：以音节为划分粒度构建针对所述关键词的匹配词表；所述根据所述音节概率分布，通过所述解码器确定用于标识所述语音数据中是否包括所述关键词的语音识别结果，包括：根据所述音节概率分布和所述匹配词表，通过所述解码器确定用于标识所述语音数据中是否包括所述关键词的语音识别结果。4.根据权利要求1所述的方法，其特征在于，所述时延神经网络包括N层特征提取层，j∈N，针对所述语音数据所包括语音帧中的第i帧语音帧，所述将所述语音数据作为所述时延神经网络的输入数据，通过所述时延神经网络确定所述语音数据所包括语音帧分别对应的音节概率分布，包括：根据第j
‑
1层特征提取层针对所述第i帧语音帧的输出特征，通过第j层特征提取层确定所述第i帧语音帧的语音帧特征；通过所述语音帧特征和所述第i帧语音帧在所述语音数据中的前后至少一帧对应的语音帧特征，确定所述第i帧语音帧在所述第j层特征提取层的输出特征；根据所述第i帧语音帧在所述第j层特征提取层的输出特征，确定所述第i帧语音帧对应的音节概率分布。5.根据权利要求3所述的方法，其特征在于，所述方法还包括：根据发音相似程度确定所述关键词所包括音节的相似音节；若所述关键词中具有多音字，确定所述多音字对应的多音字音节；所述以音节为划分粒度构建针对所述关键词的匹配词表，包括：根据所述相似音节和所述多音字音节中的至少一个，以及所述关键词对应的音节，以音节为划分粒度构建针对所述关键词的匹配词表。6.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员：袁有根，吕志强，黄申，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人