基于深度学习的语种识别方法、装置、可读存储介质制造方法及图纸

技术编号:35203763 阅读:13 留言:0更新日期:2022-10-15 10:13
本公开提供了一种基于深度学习的语种识别方法、装置、可读存储介质。所述方法包括:语种标签获取步骤,获取历史通话录音集,识别所述历史通话录音集中每个通话录音的语种类别,并根据识别出的语种类别为所对应的通话录音标记语种标签,得到包括多个带有语种标签的通话录音的音频数据集;模型训练步骤,通过所述音频数据集训练设定模型的模型参数,得到专用于语种识别的识别模型;语种识别步骤,将实时语音输入至所述识别模型进行语种识别,得到并输出所述实时语音的语种类别。该方法针对细分领域实现了更高的准确率和更快的识别速度,且无需大量人力标注语种,不依赖运营商提供训练语料,从而节省了大量的人力和时间成本。从而节省了大量的人力和时间成本。从而节省了大量的人力和时间成本。

【技术实现步骤摘要】
基于深度学习的语种识别方法、装置、可读存储介质


[0001]本公开涉及电信通讯领域、语音识别、数据特征处理、深度学习领域,特别是涉及一种基于深度学习的语种识别方法、装置和可读存储介质。

技术介绍

[0002]现有坐席助手类型的产品,在用户拨打电话与坐席进行交互的过程中需要进行识别语种。只有在语种识别正确的情况下,在配置其他功能时才能正确录入用户的诉求内容,减少坐席手动录入信息的时长,从而减轻坐席的压力。现有的语种识别方法主要针对ASR(Automatic Speech Recognition,自动语音识别)实时语音转写后的文本(通话转写文本),基于文本进行识别来实现语种识别。
[0003]使用通话转写文本进行语种识别存在两方面缺陷:1.识别准确率很大程度上依赖于ASR转写是否准确;2.使用实时ASR转写后才能进行语种识别,识别速度与直接语音识别相差甚远。坐席人员能明显感知文本语种识别的速度很慢。
[0004]此外,还有一种方法是采用外部语种识别API接口进行实时语种识别,虽然该识别速度快,但存在由于API接口是面向通用业务场景,在面对细分行业时,如客服领域或者地方口音严重情况下识别准确率明显下降,只有64%左右准确率,无法满足特定细分领域的需求。
[0005]除此之外,在深度学习领域,模型准确率高且上线支持高并发情况下,更多于依赖大量人工来标注语种类别,从而获取训练语料,至少需要训练语料3、4W通,这将耗费大量的人工成本和时间成本。

技术实现思路

[0006]基于目前语种识别存在识别速度慢;训练语料需要大量人工标注;外部语种识别API接口面向细分领域效果差的情况,本公开将深度学习和语音识别相结合提供一种基于深度学习来实现语种识别的方法。
[0007]根据本公开的第一方面,提供了一种基于深度学习来实现语种识别的方法,所述方法包括:
[0008]语种标签获取步骤,获取历史通话录音集,识别所述历史通话录音集中每个通话录音的语种类别,并根据识别出的语种类别为所对应的通话录音标记语种标签,得到包括多个带有语种标签的通话录音的音频数据集;
[0009]模型训练步骤,通过所述音频数据集训练设定模型的模型参数,得到专用于语种识别的识别模型;
[0010]语种识别步骤,将实时语音输入至所述识别模型进行语种识别,得到并输出所述实时语音的语种类别。
[0011]因此,该方法无需人工标记就能够获得训练语料,无需将语音转出文本即可进行识别,节省人力和时间。
[0012]可选地,所述设定模型是基于深度神经网络实现的语音特征模型。
[0013]可选地,所述模型训练步骤还包括特征提取步骤,对所述音频数据集的PLP特征参数进行提取,利用所述PLP特征参数对所述设定模型进行模型训练。
[0014]可选地,在所述语种识别步骤中,对所述实时语音的PLP特征参数进行提取,将所提取的实时语音的PLP特征参数输入至所述识别模型来对所述实时语音进行语种识别。
[0015]可选地,所述方法在所述模型训练步骤之前还包括过滤步骤,所述过滤步骤包括错误类别剔除步骤、识别度筛选步骤、时长筛选步骤中的至少一个步骤;其中,
[0016]错误类别剔除步骤,从所述音频数据集中删除带有特定语种标签的通话录音,其中,所述特定语种标签为不属于预先设定的语种类别集的标签;
[0017]识别度筛选步骤,从所述音频数据集中删除对于语种类别的识别准确率低于设定阈值的通话录音;
[0018]时长筛选步骤,使用librosa音频处理库读取所述音频数据集中每个通话录音的时长,将时长小于3秒的通话录音删除。
[0019]通过该过滤步骤能够针对细分领域筛选训练语料,进而更高效地完成建模,并获得更高的识别准确率。
[0020]可选地,所述特征提取步骤包括:
[0021]读取步骤,使用librosa音频处理库读取每个通话录音;
[0022]参数获取步骤,使用PLP技术对所读取的每个通话录音获取PLP特征参数。
[0023]可选地,在所述语种识别步骤中,所述设定模型得出实时语音属于各个语种的概率,将概率的最大值所对应的语种类别作为识别结果输出。
[0024]可选地,在所述语种识别步骤中,在所述概率的最大值大于预先设定的输出阈值的情况下,将概率的最大值所对应的语种类别作为识别结果输出。
[0025]根据本公开的第二方面,提供了一种基于深度学习的语种识别装置,所述装置包括:
[0026]语种标签获取模块,获取历史通话录音集,识别所述历史通话录音集中每个通话录音的语种类别,并根据识别出的语种类别为所对应的通话录音标记语种标签,得到包括多个带有语种标签的通话录音的音频数据集;
[0027]模型训练模块,通过所述音频数据集训练设定模型的模型参数,得到专用于语种识别的识别模型;
[0028]语种识别模块,将实时语音输入至所述识别模型进行语种识别,得到并输出所述实时语音的语种类别。
[0029]根据本公开的第三方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本公开第一方面所述的方法。
[0030]通过本实施例的方法,能够通过语音降噪和现有的语种识别API接口来自动完成训练语料的制作;通过深度学习对训练语料进行特征建模,最后对实时的通话录音进行分析、语种识别,能够建立针对细分领域的模型,实现更高的识别准确率和更快地识别速度,以此降低人工复听压力、节省人力。
[0031]此外,由于现有的语种识别API接口是收费的,在业务场景中进行语种识别会持续产生费用。而根据本实施例的方法,仅在获取语种标签时产生一定费用,完成训练语料的制
作后,便可以利用根据本公开的方法得到的识别模型进行识别,而不再依赖语种识别API接口,也就不会在这方面产生费用,从而减少了成本。
[0032]通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
[0033]被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开的原理。
[0034]图1是可用于实现本公开的实施例的语种识别装置的硬件配置示意图。
[0035]图2示出了根据本公开的语种识别方法的原理图。
[0036]图3示出了使用根据本公开的语种方法进行语种识别的流程图。
[0037]图4本公开的实施例的系统结构示意图。
[0038]图5示出了根据本公开的语种识别装置的功能模块示意图。
具体实施方式
[0039]下面将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0040]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的语种识别方法,其特征在于,所述方法包括:语种标签获取步骤,获取历史通话录音集,识别所述历史通话录音集中每个通话录音的语种类别,并根据识别出的语种类别为所对应的通话录音标记语种标签,得到包括多个带有语种标签的通话录音的音频数据集;模型训练步骤,通过所述音频数据集训练设定模型的模型参数,得到专用于语种识别的识别模型;语种识别步骤,将实时语音输入至所述识别模型进行语种识别,得到并输出所述实时语音的语种类别。2.根据权利要求1所述的方法,其特征在于,所述设定模型是基于深度神经网络实现的语音特征模型。3.根据权利要求1所述的方法,其特征在于,所述模型训练步骤还包括特征提取步骤,对所述音频数据集的PLP特征参数进行提取,利用所述PLP特征参数对所述设定模型进行模型训练。4.根据权利要求3所述的方法,其特征在于,在所述语种识别步骤中,对所述实时语音的PLP特征参数进行提取,将所提取的实时语音的PLP特征参数输入至所述识别模型来对所述实时语音进行语种识别。5.根据权利要求1所述的方法,其特征在于,所述方法在所述模型训练步骤之前还包括过滤步骤,所述过滤步骤包括错误类别剔除步骤、识别度筛选步骤、时长筛选步骤中的至少一个步骤;其中,错误类别剔除步骤,从所述音频数据集中删除带有特定语种标签的通话录音,其中,所述特定语种标签为不属于预先设定的语种类别集的标签;识别度筛选步骤,从所述音频数据集中删除对于语种类别的...

【专利技术属性】
技术研发人员:黄诗雅罗睦军朱栩
申请(专利权)人:广州云趣信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1