关键词语音识别方法、装置、存储介质和电子设备制造方法及图纸

技术编号:36115528 阅读:19 留言:0更新日期:2022-12-28 14:19
本发明专利技术实施例提供了一种关键词语音识别方法、装置、存储介质和设备,关键词语音识别方法包括:获取声学特征提取后的待识别音频数据,同步识别所述待识别音频数据为第一文本数据和拼音数据,根据所述拼音数据获取第二文本数据,当所述第二文本数据中包括与预设关键词匹配成功时的匹配关键词,获取所述匹配关键词,根据所述匹配关键词获取所述第一文本数据中的对应文本片段,当所述匹配关键词与所述对应文本片段的差别满足预设的差别阈值时,将所述匹配关键词作为目标关键词。可见,本申请所提供的关键词语音识别方法可以提高关键词语音识别的准确性。音识别的准确性。音识别的准确性。

【技术实现步骤摘要】
关键词语音识别方法、装置、存储介质和电子设备


[0001]本专利技术实施例涉及计算机领域,尤其涉及一种关键词语音识别方法、装置、存储介质和电子设备。

技术介绍

[0002]语音识别技术是一种依靠深度神经网络等先进的算法将语音转为文本的技术,由于可以应用于多个领域,得到了人们的广泛关注和研究。
[0003]然而,现有的语音识别技术的准确性仍然有待提高,尤其是在对于一些关键词的识别上。比如:可以首先基于HMM/DNN模型进行语音识别,完成语音到文本的转换,再基于给定的关键词进行文本层面的匹配,最终匹配出相应的关键词;或者利用一个网络实现端到端语音识别,将语音转为文本之后,再按照关键词匹配的方式完成语音关键词识别。
[0004]可见,无论采取哪种方法,对于关键词识别都是基于语音识别成文本之后进行的关键词匹配,这就要求语音能够准确地转换为对应文本,但现有技术进行语音文本转换时准确性难以保证,尤其是语音中包括多音词或专业术语时,更是难以保证转换的准确性,从而难以准确识别语音中的关键词。
[0005]因此,如何提高关键词语音识别的准确性,就成为亟需解决的技术问题。

技术实现思路

[0006]本申请实施例提供关键词语音识别方法、装置、存储介质和电子设备,以提高关键词语音识别的准确性。
[0007]第一方面,为解决上述问题,本专利技术实施例提供一种关键词语音识别方法,包括:
[0008]获取声学特征提取后的待识别音频数据;
[0009]同步识别所述待识别音频数据为第一文本数据和拼音数据;
[0010]根据所述拼音数据获取第二文本数据;
[0011]当所述第二文本数据中包括与预设关键词匹配成功时的匹配关键词,获取所述匹配关键词,根据所述匹配关键词获取所述第一文本数据中的对应文本片段;
[0012]当所述匹配关键词与所述对应文本片段的差别满足预设的差别阈值时,将所述匹配关键词作为目标关键词。
[0013]第二方面,为解决上述技术问题,本申请实施例还提供一种关键词语音识别装置,包括:
[0014]待识别音频数据获取单元,适于获取声学特征提取后的待识别音频数据;
[0015]混合字音识别单元,适于同步识别所述待识别音频数据为第一文本数据和拼音数据;
[0016]第二文本数据获取单元,适于根据所述拼音数据获取第二文本数据;
[0017]对应文本片段获取单元,适于当所述第二文本数据中包括与预设关键词匹配成功时的匹配关键词,获取所述匹配关键词,根据所述匹配关键词获取所述第一文本数据中的
对应文本片段;
[0018]目标关键词获取单元,适于当所述匹配关键词与所述对应文本片段的差别满足预设的差别阈值时,将所述匹配关键词作为目标关键词。
[0019]第三方面,为解决上述技术问题,本申请实施例还提供一种存储介质,所述存储介质存储有适于关键词语音识别的程序,以执行上述第一方面所述的关键词语音识别方法。
[0020]第四方面,为解决上述技术问题,本申请实施例还提供一种电子设备,包括至少一个存储器和至少一个执行器,所述存储器存储有程序,所述处理器调用所述程序,以执行上述第一方面所述的关键词语音识别方法。
[0021]与现有技术相比,本专利技术的技术方案具有以下优点:
[0022]本申请实施例的关键词语音识别技术方案,获取声学特征提取后的待识别音频数据后据以同步获取第一文本数据和拼音数据,再根据所述拼音数据获取第二文本数据,当第二文本数据中包括与预设关键词匹配成功的匹配关键词时,获取所述匹配关键词,根据所述匹配关键词获取所述第一文本数据中的对应文本片段,所述对应文本片段,并在判断所述匹配关键词和所述对应文本片段的差别满足差别阈值时,将所述匹配关键词作为目标关键词。
[0023]这样,同一待识别音频数据会被同步识别为两个文本数据,分别为第一文本数据和第二文本数据,其中第一文本数据是待识别音频直接识别得到的文本数据,属于端到端的音频识别,而第二文本数据是通过先识别为拼音数据,再根据拼音数据识别得到的文本数据,因此,第一文本数据和第二文本数据是通过不同方式对同一待识别音频的识别结果,通过综合二者的识别结果,判断二者的差别是否满足差别阈值,从而判断是否识别到目标关键词。
[0024]可见,本申请实施例所提供的关键词语音识别技术,首先,可以同步获取拼音数据和文本数据(第一文本数据),从而实现文本和拼音的同步识别;其次,本申请实施例进一步根据同步获取的拼音数据识别得到第二文本数据,进而结合所述第二文本数据和第一文本数据,综合两种不同语音识别的结果综合进行关键词的识别,从而提高了关键词语音识别的准确性。
附图说明
[0025]图1为本申请实施例所提供的关键词语音识别方法的一流程图;
[0026]图2为本申请实施例所提供的关键词语音识别方法所用的拼音文本同步转换模型的一示意图;
[0027]图3为本申请实施例所提供的关键词语音识别方法的拼音文本同步转换模型的又一示意图;
[0028]图4a为本申请实施例所提供的关键词语音识别方法的一种同步识别流程图;
[0029]图4b为本申请实施例所提供的关键词语音识别方法的另一种同步识别流程图;
[0030]图5为本申请实施例所提供的关键词语音识别方法的获取对应文本片段的步骤的一流程图;
[0031]图6为本申请实施例所提供给的关键词识别方法的对应关键词获取方法;
[0032]图7是本申请实施例所提供的关键词语音识别装置的一框图;
[0033]图8为本申请实施例所提供的电子设备的一种可选硬件设备架构图。
具体实施方式
[0034]现有技术中存在着的关键词语音识别的准确性较低的技术问题,为了解决前述技术问题,本申请实施例提供一种关键词语音识别方法、装置、存储介质和电子设备,以提高关键词语音识别的准确性。
[0035]为了提高关键词语音识别的准确性,本公开实施例提供了一种关键词语音识别方法、装置、存储介质及电子设备,其中,关键词语音识别方法,包括:
[0036]获取声学特征提取后的待识别音频数据;
[0037]同步识别所述待识别音频数据为第一文本数据和拼音数据;
[0038]根据所述拼音数据获取第二文本数据;
[0039]当所述第二文本数据中包括与预设关键词匹配成功时的匹配关键词,获取所述匹配关键词,根据所述匹配关键词获取所述第一文本数据中的对应文本片段;
[0040]当所述匹配关键词与所述对应文本片段的差别满足预设的差别阈值时,将所述匹配关键词作为目标关键词。
[0041]这样,同一待识别音频数据会被同步识别为两个文本数据,分别为第一文本数据和第二文本数据,其中第一文本数据是待识别音频直接识别得到的文本数据,属于端到端的音频识别,而第二文本数据是通过先识别为拼音数据,再根据拼音数据识别得到的文本数据,因此,第一文本数据和第二文本数据是通过不同方式对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词语音识别方法,其特征在于,包括:获取声学特征提取后的待识别音频数据;同步识别所述待识别音频数据为第一文本数据和拼音数据;根据所述拼音数据获取第二文本数据;当所述第二文本数据中包括与预设关键词匹配成功时的匹配关键词,获取所述匹配关键词,根据所述匹配关键词获取所述第一文本数据中的对应文本片段;当所述匹配关键词与所述对应文本片段的差别满足预设的差别阈值时,将所述匹配关键词作为目标关键词。2.如权利要求1所述的关键词语音识别方法,其特征在于,所述同步识别所述待识别音频数据为第一文本数据和拼音数据,包括:处理所述待识别音频数据,得到编码声学特征矩阵;解码所述编码声学特征矩阵,得到所述第一文本数据;解码所述编码声学特征矩阵,与所述得到所述第一文本数据同步得到所述拼音数据。3.如权利要求1所述的关键词语音识别方法,其特征在于,所述同步识别所述待识别音频数据为第一文本数据和拼音数据,包括:处理所述待识别音频数据,得到编码声学特征矩阵;解码所述编码声学特征矩阵,得到所述第一文本初解码数据;根据所述第一文本初解码数据和所述编码声学特征矩阵,获取所述第一文本数据;解码所述编码声学特征矩阵,与所述得到所述第一文本数据同步得到所述拼音数据。4.如权利要求3所述的关键词语音识别方法,其特征在于,所述拼音数据包括音频

拼音概率数据,所述音频

拼音概率数据为音频转换为各拼音的概率。5.如权利要求4所述的关键词识别方法,其特征在于,所述根据所述拼音数据获取第二文本数据,包括:根据所述拼音数据、预设拼音

文本片段概率数据和预设语序逻辑权重获取第二文本数据,所述预设拼音

文本概率数据是拼音转换为各文本片段的概率,所述语序逻辑权重是当前文本片段与前序文本片段连接的概率。6.如权利要求5所述的关键词语音识别方法,其特征在于,所述根据所述拼音数据、预设拼音

文本片段概率数据和预设语序逻辑权重获取第二文本数据,包括:根据所述拼音数据获取各对应的文本序列,所述文本序列中的各文本片段与所述拼音数据中的各拼音一一对应,且顺序相同;获取各文本序列中各所述文本片段的结合概率,所述结合概率包括所述文本片段的所述语序逻辑权重和所述拼音

文本片段概率的乘积;获取所述各文本序列的综合概率,所述综合概率为所述各文本序列中各所述文本片段的结合概率的和;以所述各文本序列中综合概率最大的文本序列为第二文本数据。7.如权利要求6所述的关键词语音识别方法,其特征在于,所述结合概率还包括:与所述文本片段的所述音频

拼音概率数据的乘积。8.如权利要求5所述的关键词语音识别方法,其特征在于,所述预设语序逻辑权重的设置步骤包括:
获取所述预设关键词,增大所述预设关键词的所述预设语序逻辑权重。9.如权利要求1所述的关键词语音识别方法,其特征在于,所述待识别音频数据包括音频帧和标识所述音频帧的时间戳,所述编码声学特征矩阵、...

【专利技术属性】
技术研发人员:李成飞邓书豪王耀平白锦峰
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1