一种基于语音芯片的高精度语音识别方法及系统技术方案

技术编号:36437985 阅读:19 留言:0更新日期:2023-01-20 22:52
本发明专利技术提供了一种基于语音芯片的高精度语音识别方法及系统,涉及语音识别技术领域,方法包括:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;基于语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;基于补偿结果,对处理后的语音进行再次识别。通过构建语音图谱和识别图谱,对处理后的语音进行补偿,最后对补偿后的语音进行再次识别,实现对语音的高精度识别。的高精度识别。的高精度识别。

【技术实现步骤摘要】
一种基于语音芯片的高精度语音识别方法及系统


[0001]本专利技术涉及语音识别
,特别涉及一种基于语音芯片的高精度语音识别方法及系统。

技术介绍

[0002]目前,随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,并且正在改变人类的生产和生活方式,在日常生活中对语音信号进行识别过程中,一般是需要进行降噪处理的,但是一般只是按照过滤器或者模型来对语音本身进行降噪,降噪过程中会出现部分语音失真,无法进行识别,使得降噪效果不理想,进而导致语音识别无法达到高精度的识别。

技术实现思路

[0003]本专利技术提供一种基于语音芯片的高精度语音识别方法及系统,通过对采集的当下语音进行去噪和语音增强处理,构建语音图谱和识别图谱,对处理后的语音进行补偿,最后对补偿后的语音进行再次识别,实现对语音的高精度识别。
[0004]本专利技术提出一种基于语音芯片的高精度语音识别方法,包括:步骤1:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;步骤2:确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;步骤3:实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;步骤4:基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;步骤5:基于补偿结果,对处理后的语音进行再次识别。
[0005]优选的,基于语音采集芯片采集当下语音,包括:获取语音采集芯片的标识码,并根据所述标识码获取所述语音采集芯片相对应的配置信息;基于所述配置信息确定所述语音采集芯片的兼容语音类型;当所述语音采集芯片接收到采集当下语音的指令时,采集当下语音并对所述当下语音进行检测,确定所述当下语音的当下语音类型;判断所述当下语音类型是否与兼容语音类型一致,若一致,将采集的当下语音保留;否则,将采集的当下语音删除,且对所述语音采集芯片的当下采集模式进行调节,进行重新采集。
[0006]优选的,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定,包
括:确定所述当下语音的采集来源;评估所述采集来源的外放声音与所述当下语音的匹配兼容度;确认所述匹配兼容度是否大于等于预设阈值,若是,确认采集来源的采集置信度为高,否则,采集来源的采集置信度为低。
[0007]优选的,确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,包括:从声音

来源数据库中获取采集来源的标准声音并制作第一声音图谱;制作获取的当下语音的第二声音图谱;将所述第一声音图谱和第二声音图谱进行比较,确定采集来源的初始噪音;基于所述采集置信度判断所述当下语音是否具备作为待识别语音的条件,若是,将待识别语音分成多个频段;获取所述多个频段中每个频段的噪声等效功率,计算每个频段的噪声抑制因子;对待识别语音进行傅里叶变换,得到每个频段的幅值;基于每个频段的噪声抑制因子和对应的每个频段的幅值,得到去噪后的幅值;对去噪后的幅值进行反向傅里叶变换,得到去噪后的语音;将去噪后的语音分成多个语音帧,获取各个语音帧的声学特征;基于各个语音帧的声学特征确定该语音帧的语音增强参数;利用语音帧的语音增强参数对去噪后的语音进行增强处理,得到增强后的语音。
[0008]优选的,提取处理后的语音中的语音特征来构建语音图谱,包括:去除所述处理后的语音中的无关部分,得到第一语音;构建音频特征提取模型并对所述第一语音进行特征提取,得到语音特征;基于预设特征识别模型对语音特征进行识别,得到对应的识别结果,并按照结果转换规则,得到语音图谱。
[0009]优选的,实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱,包括:获取目标脉冲信号的第一脉冲峰值数据,基于目标脉冲信号结束之前,获取目标脉冲信号的第二脉冲峰值数据;获取目标脉冲信号的第一脉冲峰值数据和目标脉冲信号的第二脉冲峰值数据之间的脉冲谷值数据;根据目标脉冲信号的第一脉冲峰值数据、目标脉冲信号的第二脉冲峰值数据和脉冲谷值数据,构建识别图谱。
[0010]优选的,基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析,包括:将当下语音分成多个语音帧,对语音帧进行频谱分析,获取分析结果;将所述语音图谱和识别图谱进行对比,且结合频谱分析结果得到语音信息中丢失的语音帧;获取与多个丢失的语音帧对应的多个语音恢复包;对多个语音恢复包进行发声分析,得到每个语音恢复包的失真信息;
基于所述失真信息,确定与丢失的语音帧对应的目标恢复语音包,将所述目标恢复语音包对应的语音补偿包对当下语音进行补偿。
[0011]优选的,去除所述处理后的语音中的无关部分,得到第一语音,包括:通过预设音频拆分检测算法将所述当下语音拆分成多个语音段;检测每个语音段中的每帧音频的帧能量和过零次数,若所述帧能量为0,则判定对应帧音频为静音,若所述帧能量不为0,且过零次数为1,则判定对应帧音频为非静音;获取每个语音段的非静音的音频帧分布,获得对应音频帧分布中超过预设峰值的帧个数的第一占比;判断所述第一占比是否大于音频帧分布的一半;若是,将对应语音段保留;否则,判断获取对应音频帧分布中超过预设峰值的第一峰值平均幅度以及未超过预设峰值的第二峰值平均幅度;计算所述第一峰值平均幅度与第二峰值平均幅度的第一比值B1、第一峰值平均幅度与预设峰值的第二比值B2以及第二峰值平均幅度与预设峰值的第三比值B3;建立比值函数Y(B1,B2,B3),确定比值有效值;当比值有效值大于预设有效值时,将对应语音段保留;否则,将对应语音段剔除;按照时间顺序,将所有保留的语音段进行重新拼接,得到新语音。
[0012]优选的,基于所述配置信息确定所述语音采集芯片的兼容语音类型,包括:根据所述配置信息确定语音采集芯片的采集语音格式;获取预设数量个语音类型各自对应的语音样本,将所述语音样本的当前格式转化为采集语音格式;将转化后的语音样本供语音采集芯片进行采集,获取采集结果;根据所述采集结果计算出语音采集芯片对于每个语音类型的语音样本的采集率:其中,Pi为语音采集芯片对于第i个语音类型的语音样本的采集率,为基于语音时长的第一权重,为基于固定矢量的第二权重,f()为语音采集芯片的窗函数,表示基于窗函数对进行采集后的信号的语音时长,为第i个语音类型的转化后的语音样本的语音信号的语音时长,为第i个语音类型的转化后的语音样本在采集之前的初始固定矢量,为第i个语音类型的转化后的语音样本经由语音采集芯片的采集结果中的当前固定矢量,u为语音采集芯片的性能指数,取值为0.9,ln为自然对数,k为语音采集芯片的采集延迟增益对性能指数的影响因子,取值范围为[0.1,0.3];选择采集率大于预设阈值的目标语音类型作为语音采集芯片的兼容语音类型。
[0013]一种基于语音芯片的高精度语音识别系统,包括:确定模块:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;
去噪模块:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音芯片的高精度语音识别方法,其特征在于,该方法包括:步骤1:基于语音采集芯片采集当下语音,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定;步骤2:确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,并提取处理后的语音中的语音特征来构建语音图谱;步骤3:实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱;步骤4:基于所述语音图谱和识别图谱之间的关联关系,对处理后的语音进行补偿分析;步骤5:基于补偿结果,对处理后的语音进行再次识别。2.根据权利要求1所述的基于语音芯片的高精度语音识别方法,其特征在于,基于语音采集芯片采集当下语音,包括:获取语音采集芯片的标识码,并根据所述标识码获取所述语音采集芯片相对应的配置信息;基于所述配置信息确定所述语音采集芯片的兼容语音类型;当所述语音采集芯片接收到采集当下语音的指令时,采集当下语音并对所述当下语音进行检测,确定所述当下语音的当下语音类型;判断所述当下语音类型是否与兼容语音类型一致,若一致,将采集的当下语音保留;否则,将采集的当下语音删除,且对所述语音采集芯片的当下采集模式进行调节,进行重新采集。3.根据权利要求1所述的基于语音芯片的高精度语音识别方法,其特征在于,获取当下语音的采集来源并对采集来源的采集置信度进行初步确定,包括:确定所述当下语音的采集来源;评估所述采集来源的外放声音与所述当下语音的匹配兼容度;确认所述匹配兼容度是否大于等于预设阈值,若是,确认采集来源的采集置信度为高,否则,采集来源的采集置信度为低。4.根据权利要求1所述的基于语音芯片的高精度语音识别方法,其特征在于,确定采集来源的初始噪音并结合采集置信度对当下语音进行去噪处理以及语音增强处理,包括:从声音

来源数据库中获取采集来源的标准声音并制作第一声音图谱;制作获取的当下语音的第二声音图谱;将所述第一声音图谱和第二声音图谱进行比较,确定采集来源的初始噪音;基于所述采集置信度判断所述当下语音是否具备作为待识别语音的条件,若是,将待识别语音分成多个频段;获取所述多个频段中每个频段的噪声等效功率,计算每个频段的噪声抑制因子;对待识别语音进行傅里叶变换,得到每个频段的幅值;基于每个频段的噪声抑制因子和对应的每个频段的幅值,得到去噪后的幅值;对去噪后的幅值进行反向傅里叶变换,得到去噪后的语音;将去噪后的语音分成多个语音帧,获取各个语音帧的声学特征;基于各个语音帧的声学特征确定该语音帧的语音增强参数;
利用语音帧的语音增强参数对去噪后的语音进行增强处理,得到增强后的语音。5.根据权利要求1所述的基于语音芯片的高精度语音识别方法,其特征在于,提取处理后的语音中的语音特征来构建语音图谱,包括:去除所述处理后的语音中的无关部分,得到第一语音;构建音频特征提取模型并对所述第一语音进行特征提取,得到语音特征;基于预设特征识别模型对语音特征进行识别,得到对应的识别结果,并按照结果转换规则,得到语音图谱。6.根据权利要求1所述的基于语音芯片的高精度语音识别方法,其特征在于,实时捕捉语音识别芯片在识别处理后的语音过程中的识别脉冲信号,构建识别图谱,包括:获取目标脉冲信号的第一脉冲峰值数据,基于目标脉冲信号结束之前,获取目标脉冲信号的第二脉冲峰值数据;获取目标脉冲信号的第一脉冲峰值数据和目标脉冲信号的第二脉冲峰值数据之间的脉冲谷值数据;根据目标脉冲信号的第一脉冲峰值数据、目标脉冲信号的第二脉冲峰值数据和脉冲谷值数据...

【专利技术属性】
技术研发人员:王嘉诚张少仲张栩
申请(专利权)人:中诚华隆计算机技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1