噪音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32642846 阅读:15 留言:0更新日期:2022-03-12 18:19
本申请实施例提供噪音识别方法、装置、电子设备及存储介质,通过获取待识别的音频片段;对所述音频片段进行特征提取,得到所述音频片段的语音特征和文本特征;其中,所述语音特征用于表示所述音频片段中语音的语音质量,所述文本特征用于表示所述音频片段中语音所对应的文本内容的文本质量;将所述音频片段的语音特征和所述文本特征输入至预先训练的噪音识别模型,得到所述音频片段的噪音识别结果。本申请通过对音频片段的语音特征和文本特征同时进行分析和处理,能够对音频片段中的人声噪声进行有效识别,相对于现有技术来说,本申请提供的噪声识别方法准确率更高,噪声识别效果更好。效果更好。效果更好。

【技术实现步骤摘要】
噪音识别方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种噪音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,人工智能语音客服机器人的应用越来越广泛。在语音客服机器人的应用过程中,需要对音频片段进行噪音识别处理,以对音频片段中的有效语音和无效噪音进行区分并对噪音进行过滤。
[0003]在现有技术中,对于音频片段中的噪音会利用噪音过滤模型来进行识别。其中,噪音过滤模型将对音频片段进行语音特征的提取,以分辨出音频片段中的人声和背景噪声,进而对背景噪声进行过滤。
[0004]但是,一些场景中背景噪声中还包括有人声噪声,现有技术对这类人声噪声并不能很好的识别和处理,这将严重影响后续对音频片段中人声的语音识别的识别准确率和语音意图的预测准确率,不利用语音客服机器人的发展。

技术实现思路

[0005]本申请实施例提供一种噪音识别方法、装置、电子设备及存储介质,以用于对音频片段中的噪音的进行识别。
[0006]第一方面,本申请提供了一种噪音识别方法,包括:
[0007]获取待识别的音频片段;
[0008]对所述音频片段进行特征提取,得到所述音频片段的语音特征和文本特征;其中,所述语音特征用于表示所述音频片段中语音的语音质量,所述文本特征用于表示所述音频片段中语音所对应的文本内容的文本质量;
[0009]将所述音频片段的语音特征和所述文本特征输入至预先训练的噪音识别模型,得到所述音频片段的噪音识别结果。
[0010]可选实施例中,所述语音特征包括:声学模型分数特征、语言模型分数特征以及最小贝叶斯风险置信度特征;
[0011]所述对所述音频片段进行特征提取,得到所述音频片段的语音特征,包括:
[0012]利用语音识别模型对所述音频片段进行识别处理,得到所述音频片段的声学模型分数、语言模型分数以及最小贝叶斯风险置信度;
[0013]对所述音频片段的声学模型分数、所述语言模型分数以及所述最小贝叶斯风险置信度分别进行线性归一化处理,得到所述音频片段的声学模型分数特征、语言模型分数特征以及最小贝叶斯风险置信度特征。
[0014]可选实施例中,所述语音特征包括:噪音模型分数特征;
[0015]所述对所述音频片段进行特征提取,得到所述音频片段的语音特征,包括:
[0016]利用噪音检测模型对所述音频片段进行识别处理,得到所述音频片段的噪音模型
分数特征。
[0017]可选实施例中,所述语音特征包括:静音时长特征和语音时长特征;
[0018]所述对所述音频片段进行特征提取,得到所述音频片段的语音特征,包括:
[0019]利用语音活性检测模型对所述音频片段进行语音活性检测,确定所述音频片段中的语音片段和非语音片段;其中,所述语音片段的时长则为所述语音时长特征;
[0020]利用语音识别模型对所述音频片段进行识别处理,得到所述音频片段对应的文本内容,以及所述文本内容所对应的时间节点;
[0021]根据所述文本信息中文本内容所对应的时间节点,确定所述语音片段中的延迟片段;
[0022]根据非语音片段的时长以及所述延迟片段的时长,确定所述静音时长特征。
[0023]可选实施例中,所述文本特征包括噪音分词占比特征和文本长度特征;
[0024]所述对所述音频片段进行特征提取,得到所述音频片段的文本特征,包括:
[0025]利用语音识别模型对所述音频片段进行识别处理,得到所述音频片段对应的文本内容和文本内容的长度;所述文本内容的长度构成所述文本长度特征;
[0026]对所述文本内容进行分词处理得到所述音频片段的至少一个分词;
[0027]利用预设的噪音分词集,确定所述至少一个分词中属于噪音分词集的分词数量;
[0028]根据所述分词数量计算所述噪音分词占比值,所述噪音分词占比值构成所述噪音分词占比特征。
[0029]可选实施例中,所述文本特征包括文本相似度特征;
[0030]所述对所述音频片段进行特征提取,得到所述音频片段的文本特征,包括:
[0031]利用语音识别模型对所述音频片段进行识别处理,得到所述音频片段对应的文本内容;
[0032]对所述文本内容进行向量化处理,得到所述文本内容对应的文本向量;
[0033]计算所述音频片段的文本向量与预设节点文本集中各节点的各预设高频文本的文本向量之间的相似度;
[0034]相似度最高的节点的预设文本的文本向量以及相应的相似度值构成所述文本相似度特征。
[0035]可选实施例中,所述预先训练的噪音识别模型是利用XGBoost进行预训练所得到的二分类模型。
[0036]第二方面,本申请提供了一种噪音识别装置,包括:
[0037]获取模块,用于获取待识别的音频片段;
[0038]特征提取模块,用于对所述音频片段进行特征提取,得到所述音频片段的语音特征和文本特征;其中,所述语音特征用于表示所述音频片段中语音的语音质量,所述文本特征用于表示所述音频片段中语音所对应的文本内容的文本质量;
[0039]噪音识别模块,用于将所述音频片段的语音特征和所述文本特征输入至预先训练的噪音识别模型,得到所述音频片段的噪音识别结果。
[0040]可选实施例中,所述语音特征包括:声学模型分数特征、语言模型分数特征以及最小贝叶斯风险置信度特征;
[0041]特征提取模块,具体用于:利用语音识别模型对所述音频片段进行识别处理,得到
所述音频片段的声学模型分数、语言模型分数以及最小贝叶斯风险置信度;对所述音频片段的声学模型分数、所述语言模型分数以及所述最小贝叶斯风险置信度分别进行线性归一化处理,得到所述音频片段的声学模型分数特征、语言模型分数特征以及最小贝叶斯风险置信度特征。
[0042]可选实施例中,所述语音特征包括:噪音模型分数特征;
[0043]特征提取模块,具体用于利用噪音检测模型对所述音频片段进行识别处理,得到所述音频片段的噪音模型分数特征。
[0044]可选实施例中,所述语音特征包括:静音时长特征和语音时长特征;
[0045]特征提取模块,具体用于:利用语音活性检测模型对所述音频片段进行语音活性检测,确定所述音频片段中的语音片段和非语音片段;其中,所述语音片段的时长则为所述语音时长特征;
[0046]利用语音识别模型对所述音频片段进行识别处理,得到所述音频片段对应的文本内容,以及所述文本内容所对应的时间节点;
[0047]根据所述文本信息中文本内容所对应的时间节点,确定所述语音片段中的延迟片段;
[0048]根据非语音片段的时长以及所述延迟片段的时长,确定所述静音时长特征。
[0049]可选实施例中,所述文本特征包括噪音分词占比特征和文本长度特征;
[0050]特征提取模块,具体用于:利用语音识别模型对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种噪音识别方法,其特征在于,包括:获取待识别的音频片段;对所述音频片段进行特征提取,得到所述音频片段的语音特征和文本特征;其中,所述语音特征用于表示所述音频片段中语音的语音质量,所述文本特征用于表示所述音频片段中语音所对应的文本内容的文本质量;将所述音频片段的语音特征和所述文本特征输入至预先训练的噪音识别模型,得到所述音频片段的噪音识别结果。2.根据权利要求1所述的噪音识别方法,其特征在于,所述语音特征包括:声学模型分数特征、语言模型分数特征以及最小贝叶斯风险置信度特征;所述对所述音频片段进行特征提取,得到所述音频片段的语音特征,包括:利用语音识别模型对所述音频片段进行识别处理,得到所述音频片段的声学模型分数、语言模型分数以及最小贝叶斯风险置信度;对所述音频片段的声学模型分数、所述语言模型分数以及所述最小贝叶斯风险置信度分别进行线性归一化处理,得到所述音频片段的声学模型分数特征、语言模型分数特征以及最小贝叶斯风险置信度特征。3.根据权利要求1所述的噪音识别方法,其特征在于,所述语音特征包括:噪音模型分数特征;所述对所述音频片段进行特征提取,得到所述音频片段的语音特征,包括:利用噪音检测模型对所述音频片段进行识别处理,得到所述音频片段的噪音模型分数特征。4.根据权利要求1所述的噪音识别方法,其特征在于,所述语音特征包括:静音时长特征和语音时长特征;所述对所述音频片段进行特征提取,得到所述音频片段的语音特征,包括:利用语音活性检测模型对所述音频片段进行语音活性检测,确定所述音频片段中的语音片段和非语音片段;其中,所述语音片段的时长则为所述语音时长特征;利用语音识别模型对所述音频片段进行识别处理,得到所述音频片段对应的文本内容,以及所述文本内容所对应的时间节点;根据所述文本信息中文本内容所对应的时间节点,确定所述语音片段中的延迟片段;根据非语音片段的时长以及所述延迟片段的时长,确定所述静音时长特征。5.根据权利要求1所述的噪音识别方法,其特征在于,所述文本特征包括噪音分词占比特征和文本长度特征;所述对所述音频片段进行特征提取,得到所述音频片段的文本特征,包括:利用语音识别模型对所述音频片段进行识别处理,得到所述音频片段对应的文本内容和文本内容...

【专利技术属性】
技术研发人员:崔午阳王佳
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1