一种端到端方言语音识别方法及AI颈椎治疗仪技术

技术编号:38158371 阅读:11 留言:0更新日期:2023-07-13 09:28
本发明专利技术公开了一种端到端方言语音识别方法及AI颈椎治疗仪,方法包括步骤:利用长度最小描述算法对输入的第一语音信号的当前语音信号内容进行检测;根据检测结果提取第一语音信号中噪声信号的第一特征矢量并提取第二语音信号的第二特征矢量;利用单高斯模型分别对第一特征矢量、第二特征矢量进行拟合,分别获取第一高斯模型参数、第二高斯模型参数;利用提升变量分别对第一高斯模型参数、第二高斯模型参数进行变换求和,以对第二高斯模型参数进行参数补偿,获取第三高斯模型参数及第三语音信号;采用注意力算法对第三语音信号的方言音素进行预测识别;通过利用提升变量对高斯模型参数进行参数补偿,提高了方言音素信号的识别精度。精度。精度。

【技术实现步骤摘要】
一种端到端方言语音识别方法及AI颈椎治疗仪


[0001]本专利技术涉及语音识别
,特别涉及一种端到端方言语音识别方法及AI颈椎治疗仪。

技术介绍

[0002]语音识别技术是语音信号处理领域的一项关键技术,正逐步成为信息技术当中人机接口部分的关键技术之一,它能让人与机器之间实现简单高效的信息传递。
[0003]现有的AI颈椎治疗仪,用于通过加热和低频脉冲对人体颈部进行仿人工学按摩,主要以国内销售为主。为了便利用户的使用操作,提高用户体验,在颈椎治疗仪上引入智能语音识别技术模块。如何准确的识别不同地方的方言并根据识别结果准确的运行相应的功能,成为公司研发的AI颈椎治疗仪首先要解决的问题,除此之外,用户输出的语音指令还受到环境音素的影响,在进行测试时,其在安静环境下表现出了较高的识别率,能够准确根据识别出来的语音指令运行,但是在一些测试环境中,由于受到环境背景噪音的影响,识别性能下降,具体表现为无法识别语音或者语音识别错误,不能按照用户指令运行,严重的还会造成颈部皮肤损伤。

技术实现思路

[0004]现有的AI颈椎治疗仪,在复杂测试环境中,由于受到环境背景噪音的影响,其语音识别性能下降,无法对不同地方的方言进行准确识别,影响用户体验。
[0005]针对上述问题,提出一种端到端方言语音识别方法及AI颈椎治疗仪,通过利用长度最小描述算法对待测的方言语音信号状态进行检测,从而不对非语音信号帧进行识别,降低识别算法功耗,通过利用提升变量对第二语音信号的高斯模型参数进行参数补偿,降低了含噪方言语音信号中易受到噪声干扰的低阶变量值,提高了抗干扰性能好的中高阶变量值,有利于提高语音信号处理模块的抗噪能力,通过设计四层残差层提取方言语音信号的局部抽象特征,避免了方言语音信号特征的层间相关性衰减,同时利用注意力算法提取语音信号帧间关系特征,提高了方言音素信号的识别精度。
[0006]第一方面,一种端到端方言语音识别方法,包括:步骤100、利用长度最小描述算法对输入的第一语音信号的当前语音信号内容进行检测;步骤200、根据检测结果提取所述第一语音信号中噪声信号的第一特征矢量并提取第二语音信号的第二特征矢量;步骤300、利用单高斯模型分别对所述第一特征矢量、第二特征矢量进行拟合,分别获取第一高斯模型参数、第二高斯模型参数;步骤400、利用提升变量分别对所述第一高斯模型参数、第二高斯模型参数进行变换求和,以对所述第二高斯模型参数进行参数补偿,获取第三高斯模型参数及第三语音信号;
步骤500、采用注意力算法对所述第三语音信号的方言音素进行预测识别,以确定方言指令内容;其中,所述第一语音信号为输入的方言语音信号,第二语音信号为不含噪音方言语音信号,第三语音信号为含噪音方言语音信号。
[0007]结合本专利技术所述的语音识别方法,第一种可能的实施方式中,所述步骤100步骤包括:步骤110、分别获取所述方言语音信号的第一描述长度值、第二描述长度值;步骤120、比较所述第一描述长度值、第二描述长度值的大小:若所述第一描述长度值小于所述第二描述长度值,则判断当前状态中的音频信号帧为非语音信号帧;其中,所述第一描述长度值为非语音状态的最小描述长度值、第二描述长度值为当前状态的最小描述长度值。
[0008]结合本专利技术所述的语音识别方法,第二种可能的实施方式中,所述步骤100步骤还包括:步骤130、分别获取所述方言语音信号的第一描述长度值、第二描述长度值;步骤140、比较所述第一描述长度值、第二描述长度值的大小:若所述第一描述长度值大于所述第二描述长度值,则判断所述当前状态中的音频信号帧为含噪语音信号帧;其中,所述第一描述长度值为非语音状态的最小描述长度值、第二描述长度值为当前状态的最小描述长度值。
[0009]结合本专利技术第二种可能的实施方式,第三种可能的实施方式中,所述步骤200步骤包括:步骤210、获取所有含噪语音信号帧的帧功率;步骤220、利用式子(1)获取补偿功率阈值H:H=C
×
g
ꢀꢀꢀ
(1),其中,g为含噪语音信号帧的功率平均值,C指常数,表示功率平均值的倍数。
[0010]结合本专利技术第三种可能的实施方式,第四种可能的实施方式中,所述步骤200还包括:步骤230、获取所述含噪语音信号帧中大于功率阈值H的临界帧号I;步骤240、提取所述含噪语音信号帧中前I

1帧的特征矢量,获取所述第一特征矢量;其中,所述临界帧号I为信号功率由小于功率阈值H向大于功率阈值H过渡的语音信号帧。
[0011]结合本专利技术第四种可能的实施方式,第五种可能的实施方式中,所述步骤400包括:步骤410、利用第一提升变量、第二提升变量,分别将所述第一高斯模型参数、第二高斯模型参数进行第一变换,以变换到线性谱域;步骤420、对转换后的第一高斯模型参数、第二高斯模型参数进行线性求和,以对所述第二高斯模型参数进行参数补偿,获取第三高斯模型参数。
[0012]结合本专利技术第五种可能的实施方式,第六种可能的实施方式中,所述步骤400还包括:
步骤430、对所述第三高斯模型参数进行第二变换,变换到倒谱域,以获取第三语音信号;其中,所述第二变换为所述第一变换的反变换。
[0013]结合本专利技术第六种可能的实施方式,第七种可能的实施方式中,所述步骤500包括:步骤510、构建语音识别模块,分别依次设置卷积层、池化层、第一残差层、第二残差层、多头注意力层、第三残差层、第四残差层、时序处理层、全连接层及输出层;步骤520、将所述第三语音信号依次经过所述卷积层、池化层,提取初步语音音素特征;步骤530、将所述初步语音音素特征输入第一残差层、第二残差层、多头注意力层、第三残差层、第四残差层,提取语音音素局部抽象特征;步骤540、利用所述语音音素局部抽象特征并依次通过所述时序处理层、全连接层、输出层生成对应的方言音素信号;步骤550、将所述方言语音信号与样本进行比较识别。
[0014]第二方面,一种AI颈椎治疗仪,采用第一方面所述的端到端方言语音识别方法,包括:治疗模块;控制模块;语音识别模块;所述控制模块分别与所述治疗模块及语音识别模块电连接;所述治疗模块用于对人体颈部进行低频脉冲治疗;所述控制模块用于根据所述语音识别模块识别出来的语音指令来控制所述治疗模块的运行;所述语音识别模块用于通过语音帧信号检测、参数补偿及注意力算法识别出方言指令,并传输到控制模块。
[0015]实施本专利技术所述的端到端方言语音识别方法及AI颈椎治疗仪,通过利用长度最小描述算法对待测的方言语音信号状态进行检测,从而不对非语音信号帧识别,降低识别算法功耗,通过利用提升变量对第二语音信号的高斯模型参数进行参数补偿,降低了含噪方言语音信号中易受到噪声干扰的低阶变量值,提高了抗干扰性能好的中高阶变量值,有利于提高语音信号处理模块的抗噪能力,通过设计四层残差层提取方言语音信号的局部抽象特征,避免了方言语音信号特征的层间相关性衰减,同时利用注意力算法提取语音信号帧间关系特征,提高了方言音素信号的识别精度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端方言语音识别方法,其特征在于,包括:步骤100、利用长度最小描述算法对输入的第一语音信号的当前语音信号内容进行检测;步骤200、根据检测结果提取所述第一语音信号中噪声信号的第一特征矢量并提取第二语音信号的第二特征矢量;步骤300、利用单高斯模型分别对所述第一特征矢量、第二特征矢量进行拟合,分别获取第一高斯模型参数、第二高斯模型参数;步骤400、利用提升变量分别对所述第一高斯模型参数、第二高斯模型参数进行变换求和,以对所述第二高斯模型参数进行参数补偿,获取第三高斯模型参数及第三语音信号;步骤500、采用注意力算法对所述第三语音信号的方言音素进行预测识别,以确定方言指令内容;其中,所述第一语音信号为输入的方言语音信号,第二语音信号为不含噪音方言语音信号,第三语音信号为含噪音方言语音信号。2.根据权利要求1所述的端到端方言语音识别方法,其特征在于,所述步骤100步骤包括:步骤110、分别获取所述方言语音信号的第一描述长度值、第二描述长度值;步骤120、比较所述第一描述长度值、第二描述长度值的大小:若所述第一描述长度值小于所述第二描述长度值,则判断当前状态中的音频信号帧为非语音信号帧;其中,所述第一描述长度值为非语音状态的最小描述长度值、第二描述长度值为当前状态的最小描述长度值。3.根据权利要求1所述的端到端方言语音识别方法,其特征在于,所述步骤100步骤还包括:步骤130、分别获取所述方言语音信号的第一描述长度值、第二描述长度值;步骤140、比较所述第一描述长度值、第二描述长度值的大小:若所述第一描述长度值大于所述第二描述长度值,则判断当前状态中的音频信号帧为含噪语音信号帧;其中,所述第一描述长度值为非语音状态的最小描述长度值、第二描述长度值为当前状态的最小描述长度值。4.根据权利要求3所述的端到端方言语音识别方法,其特征在于,所述步骤200步骤包括:步骤210、获取所有含噪语音信号帧的帧功率;步骤220、利用式子(1)获取补偿功率阈值H:H=C
×
g
ꢀꢀꢀ
(1),其中,g为含噪语音信号帧的功率平均值,C指常数,表示功率平均值的倍数。5.根据权利要求4所述的端到端方言语音识别方...

【专利技术属性】
技术研发人员:李晖军
申请(专利权)人:深圳攀高医疗电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1