基于深度学习的语种识别方法、装置、可读存储介质制造方法及图纸

技术编号：35203763 阅读：13 留言：0更新日期：2022-10-15 10:13

本公开提供了一种基于深度学习的语种识别方法、装置、可读存储介质。所述方法包括：语种标签获取步骤，获取历史通话录音集，识别所述历史通话录音集中每个通话录音的语种类别，并根据识别出的语种类别为所对应的通话录音标记语种标签，得到包括多个带有语种标签的通话录音的音频数据集；模型训练步骤，通过所述音频数据集训练设定模型的模型参数，得到专用于语种识别的识别模型；语种识别步骤，将实时语音输入至所述识别模型进行语种识别，得到并输出所述实时语音的语种类别。该方法针对细分领域实现了更高的准确率和更快的识别速度，且无需大量人力标注语种，不依赖运营商提供训练语料，从而节省了大量的人力和时间成本。从而节省了大量的人力和时间成本。从而节省了大量的人力和时间成本。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的语种识别方法、装置、可读存储介质

[0001]本公开涉及电信通讯领域、语音识别、数据特征处理、深度学习领域，特别是涉及一种基于深度学习的语种识别方法、装置和可读存储介质。

技术介绍

[0002]现有坐席助手类型的产品，在用户拨打电话与坐席进行交互的过程中需要进行识别语种。只有在语种识别正确的情况下，在配置其他功能时才能正确录入用户的诉求内容，减少坐席手动录入信息的时长，从而减轻坐席的压力。现有的语种识别方法主要针对ASR(Automatic Speech Recognition，自动语音识别)实时语音转写后的文本(通话转写文本)，基于文本进行识别来实现语种识别。
[0003]使用通话转写文本进行语种识别存在两方面缺陷：1.识别准确率很大程度上依赖于ASR转写是否准确；2.使用实时ASR转写后才能进行语种识别，识别速度与直接语音识别相差甚远。坐席人员能明显感知文本语种识别的速度很慢。
[0004]此外，还有一种方法是采用外部语种识别API接口进行实时语种识别，虽然该识别速度快，但存在由于API接口是面向通用业务场景，在面对细分行业时，如客服领域或者地方口音严重情况下识别准确率明显下降，只有64％左右准确率，无法满足特定细分领域的需求。
[0005]除此之外，在深度学习领域，模型准确率高且上线支持高并发情况下，更多于依赖大量人工来标注语种类别，从而获取训练语料，至少需要训练语料3、4W通，这将耗费大量的人工成本和时间成本。

技术实现思路

[0006]基于目前语种识别存...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的语种识别方法，其特征在于，所述方法包括：语种标签获取步骤，获取历史通话录音集，识别所述历史通话录音集中每个通话录音的语种类别，并根据识别出的语种类别为所对应的通话录音标记语种标签，得到包括多个带有语种标签的通话录音的音频数据集；模型训练步骤，通过所述音频数据集训练设定模型的模型参数，得到专用于语种识别的识别模型；语种识别步骤，将实时语音输入至所述识别模型进行语种识别，得到并输出所述实时语音的语种类别。2.根据权利要求1所述的方法，其特征在于，所述设定模型是基于深度神经网络实现的语音特征模型。3.根据权利要求1所述的方法，其特征在于，所述模型训练步骤还包括特征提取步骤，对所述音频数据集的PLP特征参数进行提取，利用所述PLP特征参数对所述设定模型进行模型训练。4.根据权利要求3所述的方法，其特征在于，在所述语种识别步骤中，对所述实时语音的PLP特征参数进行提取，将所提取的实时语音的PLP特征参数输入至所述识别模型来对所述实时语音进行语种识别。5.根据权利要求1所述的方法，其特征在于，所述方法在所述模型训练步骤之前还包括过滤步骤，所述过滤步骤包括错误类别剔除步骤、识别度筛选步骤、时长筛选步骤中的至少一个步骤；其中，错误类别剔除步骤，从所述音频数据集中删除带有特定语种标签的通话录音，其中，所述特定语种标签为不属于预先设定的语种类别集的标签；识别度筛选步骤，从所述音频数据集中删除对于语种类别的...

【专利技术属性】
技术研发人员：黄诗雅，罗睦军，朱栩，
申请(专利权)人：广州云趣信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人