语音识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:33457269 阅读:14 留言:0更新日期:2022-05-19 00:39
本申请公开了一种语音识别方法,该方法包括以下步骤:获取待识别的原始语音信号;基于预先训练好的分类模型,对所述原始语音信号中的初始语音帧进行分类处理,得到语音帧分类结果;根据所述语音帧分类结果并结合预设的判定规则,检测得到有效语音段的前端点和后端点;将所述前端点和后端点间的有效语音段输入预先训练的声学模型,进行文本转写,获得对应的目标转写结果。本发明专利技术还公开了一种设备、装置及计算机可读存储介质。本实施例将初始语音帧输入预先训练好的分类模型中,对处于前端点和后端点之间的有效语音段进行识别,提高了电话信道中实时语音识别获取目标语音识别结果的正确性,优化了噪音环境下实时语音的识别效果。果。果。

【技术实现步骤摘要】
语音识别方法、装置、设备及计算机可读存储介质


[0001]本申请涉及人工智能
,尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着人工智能技术的不断发展,智能语音客服也在不断替代人工客服,而在智能语音客服工作中,通过采用自动语音识别技术对用户的语音数据进行识别,与用户进行语音交互的场景也越来越普遍,语音识别的技术效果也直接影响到智能语音客服在与用户交互过程中识别的准确性和交互的体验感。现有的智能语音客服大多采用电话信道通信,音频采样率为8KHZ普遍低于手机和PC端等通道的16KHZ或44.1KHZ,尤其在嘈杂的环境中,电话信道通信语音质量差,电话信道丢失的信息较多,语音识别效果差,进而直接影响到智能语音客服和用户交互的准确性。
[0003]为了提升噪声环境下语音识别的效果,现有的技术一方面是在信号预处理步骤,通过噪声抑制等技术来去除部分噪声,以此来提升噪声环境下语音质量;另一方面是通过不断优化语音识别步骤的声学模型,来提高识别准确率。
[0004]在现有的技术方案中,噪声抑制的方法能够一定程度上减少语音帧中的噪声信号,提高静音检测模块的准确性,但是去噪算法会对原始语音信号进行一定程度的转换,影响声学模型的识别效果;声学模型优化的方法对数据依赖程度大,操作较为复杂,对噪声环境下语音识别的优化效果有限,传统基于能量的静音检测方法在噪声环境中效果较差。

技术实现思路

[0005]本专利技术的主要目的在于提供一种语音识别方法、装置及计算机可读存储介质,旨在提高噪声环境下电话信道实时语音识别的效果。
[0006]为实现上述目的,本专利技术提供了一种语音识别方法,所述语音识别方法包括:
[0007]获取待识别的原始语音信号;
[0008]基于预先训练的分类模型,对所述原始语音信号中的初始语音帧进行分类处理,得到语音帧分类结果;
[0009]根据所述语音帧分类结果并结合预设的判定规则,检测得到有效语音段的前端点和后端点;
[0010]将所述前端点和后端点间的有效语音段输入预先训练的声学模型,进行文本转写,获得对应的目标转写结果。
[0011]可选地,所述获取待识别的原始语音信号的步骤之后还包括:
[0012]对所述原始语音信号的字节流进行截取并进行归一化处理,得到所述原始语音信号的一维浮点型矩阵式的初始语音帧信息。
[0013]可选地,所述基于预先训练好的分类模型为二分类模型,所述二分类模型包括:浅层特征提取层、多尺度一维卷积残差层、整合层和输出层;所述基于预先训练好的分类模
型,对所述原始语音信号中的初始语音帧进行分类处理,得到语音帧分类结果的步骤包括:
[0014]将所述一维浮点型矩阵式的初始语音帧信息输入到预先训练好的二分类模型;
[0015]通过所述二分类模型中的浅层特征提取层对所述初始语音帧进行特征提取,得到初级特征,其中,浅层特征提取层包括批量归一化Batch Normalization层、最大池化MaxPooling层和一维卷积层;
[0016]通过堆叠的所述多尺度一维卷积残差层对所述初级特征进行不同尺度的卷积计算,获得计算后的高级特征,其中,所述多尺度一维卷积残差层包含m路不同尺度一维卷积残差层,每路一维卷积残差层包含n个相同卷积核大小的一维卷积残差块和平均池化AvgPooling层,其中,m、n为正整数;
[0017]将所述高级特征链接到所述二分类模型的整合层进行整合,得到对应的整合结果;
[0018]将所述整合结果输入输出层的全连接层和softmax层,获得所述初始语音帧属于不同类别的概率矩阵;
[0019]将获取的概率矩阵与预先设定好的阈值进行匹配,得到初始语音帧的语音帧分类结果。
[0020]可选地,所述根据所述语音帧分类结果并结合预设的判定规则,检测得到有效语音段的前端点和后端点的步骤包括:
[0021]基于所述原始语音信号中的初始语音帧的分类结果,获得所述原始语音信号的分类结果序列,其中,所述分类结果包括活动语音帧和非活动语音帧;
[0022]根据所述分类结果序列,结合预设的前端点与后端点判定规则,获取所述原始语音信号的有效语音段的前端点与后端点。
[0023]可选地,所述根据所述分类结果序列,结合预设的前端点与后端点判定规则,获取所述原始语音信号的有效语音段的前端点与后端点的步骤包括:
[0024]从所述分类结果序列中获取第一分类结果子序列,所述第一分类结果子序列包括:连续的N帧语音帧的分类结果;
[0025]若所述第一分类结果子序列中活动性语音帧的个数达到第一阈值,则判定所述第一分类结果子序列的最前端对应的语音帧为有效语音段的前端点;
[0026]基于所述前端点,从所述分类结果序列中获取第二分类结果子序列,所述第二分类结果子序列包括:在所述前端点之后,连续的M帧语音帧的分类结果;
[0027]若所述第二分类结果子序列中非活动性语音帧的个数达到第二阈值,则判定所述第二分类结果子序列的最后端对应的语音帧为有效语音段的后端点。
[0028]可选地,所将所述前端点和后端点间的有效语音段输入预先训练的声学模型,进行文本转写,获得对应的目标转写结果的步骤包括:
[0029]将所述前端点和后端点之间的有效语音段传入预先训练好的声学模型;
[0030]通过所述声学模型对所述有效语音段进行解码,实现文本转写,获得所述有效语音段对应的的目标转写结果。
[0031]可选地,在所述获取待识别的原始语音信号的步骤之前,所述语音识别方法还包括:
[0032]获取训练数据的样本音频,提取所述样本音频的样本特征,其中,所述样本音频具
有对应的分类结果;
[0033]基于所述样本特征,建立样本特征数据集;
[0034]构建多尺度一维残差神经网络,基于所述样本特征数据集对所述多尺度一维残差神经网络进行深度学习,得到初始的二分类模型。
[0035]可选地,在所述构建多尺度一维残差神经网络,基于所述样本特征数据集对所述多尺度一维残差神经网络进行深度学习,得到初始的二分类模型的步骤之后,所述语音识别方法还包括:
[0036]将所述初始的二分类模型进行电话信道语音数据测试,验证所述初始二分类模型的分类效果;
[0037]若分类效果未达到预设标准,则需返回对样本音频进行数据加强,获得优化训练数据的样本音频;
[0038]根据所述优化训练数据的样本音频对所述初始的二分类模型进行微调训练,获得训练后的二分类模型;
[0039]若分类效果达到预设标准,则将所述初始的二分类模型作为训练后的二分类模型。
[0040]此外,为实现上述目的,本专利技术还提供一种语音识别装置,所述语音识别装置包括:
[0041]获取模块,用于获取待识别的原始语音信号;
[0042]判定模块,用于基于预先训练的分类模型,对所述原始语音信号中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述语音识别方法包括:获取待识别的原始语音信号;基于预先训练好的分类模型,对所述原始语音信号中的初始语音帧进行分类处理,得到语音帧分类结果;根据所述语音帧分类结果并结合预设的判定规则,检测得到有效语音段的前端点和后端点;将所述前端点和后端点间的有效语音段输入预先训练的声学模型,进行文本转写,获得对应的目标转写结果。2.如权利要求1所述的语音识别方法,其特征在于,所述获取待识别的原始语音信号的步骤之后还包括:对所述原始语音信号的字节流进行截取并进行归一化处理,得到所述原始语音信号的一维浮点型矩阵式的初始语音帧信息。3.如权利要求2所述的语音识别方法,其特征在于,所述基于预先训练好的分类模型为二分类模型,所述二分类模型包括:浅层特征提取层、多尺度一维卷积残差层、整合层和输出层;所述基于预先训练好的分类模型,对所述原始语音信号中的初始语音帧进行分类处理,得到语音帧分类结果的步骤包括:将所述一维浮点型矩阵式的初始语音帧信息输入到预先训练好的二分类模型;通过所述二分类模型中的浅层特征提取层对所述初始语音帧进行特征提取,得到初级特征,其中,浅层特征提取层包括:批量归一化Batch Normalization层、最大池化MaxPooling层和一维卷积层;通过堆叠的所述多尺度一维卷积残差层对所述初级特征进行不同尺度的卷积计算,获得计算后的高级特征,其中,所述多尺度一维卷积残差层包含m路不同尺度一维卷积残差层,每路一维卷积残差层包含n个相同卷积核大小的一维卷积残差块和平均池化AvgPooling层,其中,m、n为正整数;将所述高级特征链接到所述二分类模型的整合层进行整合,得到对应的整合结果;将所述整合结果输入输出层的全连接层和softmax层,获得所述初始语音帧属于不同类别的概率矩阵;将获取的概率矩阵与预先设定好的阈值进行匹配,得到初始语音帧的语音帧分类结果。4.如权利要求1所述的语音识别方法,其特征在于,所述根据所述语音帧分类结果并结合预设的判定规则,检测得到有效语音段的前端点和后端点的步骤包括:基于所述原始语音信号中的初始语音帧的分类结果,获得所述原始语音信号的分类结果序列,其中,所述分类结果包括活动语音帧和非活动语音帧;根据所述分类结果序列,结合预设的前端点与后端点判定规则,获取所述原始语音信号的有效语音段的前端点与后端点。5.如权利要求4所述的语音识别方法,其特征在于,所述根据所述分类结果序列,结合预设的前端点与后端点判定规则,获取所述原始语音信号的有效语音段的前端点与后端点的步骤包括:从所述分类结果序列中获取第一分类结果子序列,所述第一分类结果子序列包括:连
续的N帧语音帧的分类结果;若所述第一分类结果子序列中活动性语音帧的个数达到第一阈值,则判定所述第一分类结...

【专利技术属性】
技术研发人员:周叶萍文俊杰郑桂东刘沛奇
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1