语音识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：33457269 阅读：14 留言：0更新日期：2022-05-19 00:39

本申请公开了一种语音识别方法，该方法包括以下步骤：获取待识别的原始语音信号；基于预先训练好的分类模型，对所述原始语音信号中的初始语音帧进行分类处理，得到语音帧分类结果；根据所述语音帧分类结果并结合预设的判定规则，检测得到有效语音段的前端点和后端点；将所述前端点和后端点间的有效语音段输入预先训练的声学模型，进行文本转写，获得对应的目标转写结果。本发明专利技术还公开了一种设备、装置及计算机可读存储介质。本实施例将初始语音帧输入预先训练好的分类模型中，对处于前端点和后端点之间的有效语音段进行识别，提高了电话信道中实时语音识别获取目标语音识别结果的正确性，优化了噪音环境下实时语音的识别效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、设备及计算机可读存储介质

[0001]本申请涉及人工智能
，尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着人工智能技术的不断发展，智能语音客服也在不断替代人工客服，而在智能语音客服工作中，通过采用自动语音识别技术对用户的语音数据进行识别，与用户进行语音交互的场景也越来越普遍，语音识别的技术效果也直接影响到智能语音客服在与用户交互过程中识别的准确性和交互的体验感。现有的智能语音客服大多采用电话信道通信，音频采样率为8KHZ普遍低于手机和PC端等通道的16KHZ或44.1KHZ，尤其在嘈杂的环境中，电话信道通信语音质量差，电话信道丢失的信息较多，语音识别效果差，进而直接影响到智能语音客服和用户交互的准确性。
[0003]为了提升噪声环境下语音识别的效果，现有的技术一方面是在信号预处理步骤，通过噪声抑制等技术来去除部分噪声，以此来提升噪声环境下语音质量；另一方面是通过不断优化语音识别步骤的声学模型，来提高识别准确率。
[0004]在现有的技术方案中，噪声抑制的方法能够一定程度上减少语音帧中的噪声信号，提高静音检测模块的准确性，但是去噪算法会对原始语音信号进行一定程度的转换，影响声学模型的识别效果；声学模型优化的方法对数据依赖程度大，操作较为复杂，对噪声环境下语音识别的优化效果有限，传统基于能量的静音检测方法在噪声环境中效果较差。

技术实现思路

[0005]本专利技术的主要目的在于提供一种语音识别方法、装置及计算机可读存储介质，...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述语音识别方法包括：获取待识别的原始语音信号；基于预先训练好的分类模型，对所述原始语音信号中的初始语音帧进行分类处理，得到语音帧分类结果；根据所述语音帧分类结果并结合预设的判定规则，检测得到有效语音段的前端点和后端点；将所述前端点和后端点间的有效语音段输入预先训练的声学模型，进行文本转写，获得对应的目标转写结果。2.如权利要求1所述的语音识别方法，其特征在于，所述获取待识别的原始语音信号的步骤之后还包括：对所述原始语音信号的字节流进行截取并进行归一化处理，得到所述原始语音信号的一维浮点型矩阵式的初始语音帧信息。3.如权利要求2所述的语音识别方法，其特征在于，所述基于预先训练好的分类模型为二分类模型，所述二分类模型包括：浅层特征提取层、多尺度一维卷积残差层、整合层和输出层；所述基于预先训练好的分类模型，对所述原始语音信号中的初始语音帧进行分类处理，得到语音帧分类结果的步骤包括：将所述一维浮点型矩阵式的初始语音帧信息输入到预先训练好的二分类模型；通过所述二分类模型中的浅层特征提取层对所述初始语音帧进行特征提取，得到初级特征，其中，浅层特征提取层包括：批量归一化Batch Normalization层、最大池化MaxPooling层和一维卷积层；通过堆叠的所述多尺度一维卷积残差层对所述初级特征进行不同尺度的卷积计算，获得计算后的高级特征，其中，所述多尺度一维卷积残差层包含m路不同尺度一维卷积残差层，每路一维卷积残差层包含n个相同卷积核大小的一维卷积残差块和平均池化AvgPooling层，其中，m、n为正整数；将所述高级特征链接到所述二分类模型的整合层进行整合，得到对应的整合结果；将所述整合结果输入输出层的全连接层和softmax层，获得所述初始语音帧属于不同类别的概率矩阵；将获取的概率矩阵与预先设定好的阈值进行匹配，得到初始语音帧的语音帧分类结果。4.如权利要求1所述的语音识别方法，其特征在于，所述根据所述语音帧分类结果并结合预设的判定规则，检测得到有效语音段的前端点和后端点的步骤包括：基于所述原始语音信号中的初始语音帧的分类结果，获得所述原始语音信号的分类结果序列，其中，所述分类结果包括活动语音帧和非活动语音帧；根据所述分类结果序列，结合预设的前端点与后端点判定规则，获取所述原始语音信号的有效语音段的前端点与后端点。5.如权利要求4所述的语音识别方法，其特征在于，所述根据所述分类结果序列，结合预设的前端点与后端点判定规则，获取所述原始语音信号的有效语音段的前端点与后端点的步骤包括：从所述分类结果序列中获取第一分类结果子序列，所述第一分类结果子序列包括：连
续的N帧语音帧的分类结果；若所述第一分类结果子序列中活动性语音帧的个数达到第一阈值，则判定所述第一分类结...

【专利技术属性】
技术研发人员：周叶萍，文俊杰，郑桂东，刘沛奇，
申请(专利权)人：招商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人