关键词语音识别方法、装置、存储介质和电子设备制造方法及图纸

技术编号：36115528 阅读：19 留言：0更新日期：2022-12-28 14:19

本发明专利技术实施例提供了一种关键词语音识别方法、装置、存储介质和设备，关键词语音识别方法包括：获取声学特征提取后的待识别音频数据，同步识别所述待识别音频数据为第一文本数据和拼音数据，根据所述拼音数据获取第二文本数据，当所述第二文本数据中包括与预设关键词匹配成功时的匹配关键词，获取所述匹配关键词，根据所述匹配关键词获取所述第一文本数据中的对应文本片段，当所述匹配关键词与所述对应文本片段的差别满足预设的差别阈值时，将所述匹配关键词作为目标关键词。可见，本申请所提供的关键词语音识别方法可以提高关键词语音识别的准确性。音识别的准确性。音识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
关键词语音识别方法、装置、存储介质和电子设备

[0001]本专利技术实施例涉及计算机领域，尤其涉及一种关键词语音识别方法、装置、存储介质和电子设备。

技术介绍

[0002]语音识别技术是一种依靠深度神经网络等先进的算法将语音转为文本的技术，由于可以应用于多个领域，得到了人们的广泛关注和研究。
[0003]然而，现有的语音识别技术的准确性仍然有待提高，尤其是在对于一些关键词的识别上。比如：可以首先基于HMM/DNN模型进行语音识别，完成语音到文本的转换，再基于给定的关键词进行文本层面的匹配，最终匹配出相应的关键词；或者利用一个网络实现端到端语音识别，将语音转为文本之后，再按照关键词匹配的方式完成语音关键词识别。
[0004]可见，无论采取哪种方法，对于关键词识别都是基于语音识别成文本之后进行的关键词匹配，这就要求语音能够准确地转换为对应文本，但现有技术进行语音文本转换时准确性难以保证，尤其是语音中包括多音词或专业术语时，更是难以保证转换的准确性，从而难以准确识别语音中的关键词。
[0005]因此，如何提高关键词语音识别的准确性，就成为亟需解决的技术问题。

技术实现思路

[0006]本申请实施例提供关键词语音识别方法、装置、存储介质和电子设备，以提高关键词语音识别的准确性。
[0007]第一方面，为解决上述问题，本专利技术实施例提供一种关键词语音识别方法，包括：
[0008]获取声学特征提取后的待识别音频数据；
[0009]同步识别所述待识别音频数据为第一文...

【技术保护点】

【技术特征摘要】
1.一种关键词语音识别方法，其特征在于，包括：获取声学特征提取后的待识别音频数据；同步识别所述待识别音频数据为第一文本数据和拼音数据；根据所述拼音数据获取第二文本数据；当所述第二文本数据中包括与预设关键词匹配成功时的匹配关键词，获取所述匹配关键词，根据所述匹配关键词获取所述第一文本数据中的对应文本片段；当所述匹配关键词与所述对应文本片段的差别满足预设的差别阈值时，将所述匹配关键词作为目标关键词。2.如权利要求1所述的关键词语音识别方法，其特征在于，所述同步识别所述待识别音频数据为第一文本数据和拼音数据，包括：处理所述待识别音频数据，得到编码声学特征矩阵；解码所述编码声学特征矩阵，得到所述第一文本数据；解码所述编码声学特征矩阵，与所述得到所述第一文本数据同步得到所述拼音数据。3.如权利要求1所述的关键词语音识别方法，其特征在于，所述同步识别所述待识别音频数据为第一文本数据和拼音数据，包括：处理所述待识别音频数据，得到编码声学特征矩阵；解码所述编码声学特征矩阵，得到所述第一文本初解码数据；根据所述第一文本初解码数据和所述编码声学特征矩阵，获取所述第一文本数据；解码所述编码声学特征矩阵，与所述得到所述第一文本数据同步得到所述拼音数据。4.如权利要求3所述的关键词语音识别方法，其特征在于，所述拼音数据包括音频
‑
拼音概率数据，所述音频
‑
拼音概率数据为音频转换为各拼音的概率。5.如权利要求4所述的关键词识别方法，其特征在于，所述根据所述拼音数据获取第二文本数据，包括：根据所述拼音数据、预设拼音
‑
文本片段概率数据和预设语序逻辑权重获取第二文本数据，所述预设拼音
‑
文本概率数据是拼音转换为各文本片段的概率，所述语序逻辑权重是当前文本片段与前序文本片段连接的概率。6.如权利要求5所述的关键词语音识别方法，其特征在于，所述根据所述拼音数据、预设拼音
‑
文本片段概率数据和预设语序逻辑权重获取第二文本数据，包括：根据所述拼音数据获取各对应的文本序列，所述文本序列中的各文本片段与所述拼音数据中的各拼音一一对应，且顺序相同；获取各文本序列中各所述文本片段的结合概率，所述结合概率包括所述文本片段的所述语序逻辑权重和所述拼音
‑
文本片段概率的乘积；获取所述各文本序列的综合概率，所述综合概率为所述各文本序列中各所述文本片段的结合概率的和；以所述各文本序列中综合概率最大的文本序列为第二文本数据。7.如权利要求6所述的关键词语音识别方法，其特征在于，所述结合概率还包括：与所述文本片段的所述音频
‑
拼音概率数据的乘积。8.如权利要求5所述的关键词语音识别方法，其特征在于，所述预设语序逻辑权重的设置步骤包括：
获取所述预设关键词，增大所述预设关键词的所述预设语序逻辑权重。9.如权利要求1所述的关键词语音识别方法，其特征在于，所述待识别音频数据包括音频帧和标识所述音频帧的时间戳，所述编码声学特征矩阵、...

【专利技术属性】
技术研发人员：李成飞，邓书豪，王耀平，白锦峰，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人