方言数据自动筛选识别方法、装置、设备及其存储介质制造方法及图纸

技术编号:38685406 阅读:15 留言:0更新日期:2023-09-02 22:58
本申请实施例属于识别过程优化技术领域,涉及一种方言数据自动筛选识别方法、装置、设备及其存储介质,用于辅助电销人员进行方言数据先验识别,包括将待测语音序列输入预训练完成的混合结构型ASR语音识别模型,获取第一文本序列;将待测语音序列输入预训练完成的端到端型ASR语音识别模型,获取第二文本序列;计算第一文本序列和第二文本序列的编辑距离;通过所述编辑距离识别待测语音序列是否为方言序列。以普通话的两种不同ASR模型,识别相同的语音序列,若为普通话,都可测出,编辑距离较小,若为方言,则两个ASR模型识别结果差异较大,编辑距离较远,既解决了搜集大批量方言语料较为困难的问题,也克服了必须以方言语料训练识别模型的技术偏见。模型的技术偏见。模型的技术偏见。

【技术实现步骤摘要】
方言数据自动筛选识别方法、装置、设备及其存储介质


[0001]本申请涉及识别过程优化
,用于辅助电销人员进行方言数据先验识别,尤其涉及一种方言数据自动筛选识别方法、装置、设备及其存储介质。

技术介绍

[0002]随着金融科技行业的兴起,金融行业里电销客服人员一直都是与客户直接进行语音通话交流的主流方式,但是,由于语言的语系差异,方言识别一直是语音识别的一大难题。语音识别系统支持方言需要收集方言语音数据进行标注,然后用这些有标注的语音数据训练语音识别模型。而方言识别主要面临的问题是方言数据稀缺,较难获取。在真实生产场景下,方言数据占比可能只占1%的比例。也就是说人工听取1万条录音,只能找到1条方言数据,因此方言数据收集效率积极低下,成本非常高。传统方言数据筛选往往需要先训练一个方言语种识别模型来筛选方言数据,但是方言语种模型同时也需要先有方言数据进行训练。然后训练出对应的方言识别模型来筛选方言数据。
[0003]因此,现有技术在进行方言数据识别时,存在总想以方言数据训练识别模型的技术偏见,而且方言数据的获取又存在数据稀缺的问题。

技术实现思路

[0004]本申请实施例的目的在于提出一种方言数据自动筛选识别方法、装置、设备及其存储介质,以解决现有技术在进行方言数据识别时,存在总想以方言数据训练识别模型的技术偏见,而且方言数据的获取又存在数据稀缺的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种方言数据自动筛选识别方法,采用了如下所述的技术方案:
[0006]一种方言数据自动筛选识别方法,包括下述步骤:
[0007]获取待测语音序列和所述待测语音序列的来源地区标识;
[0008]将所述待测语音序列输入预训练完成的混合结构型ASR语音识别模型,获取第一文本序列,其中,所述混合结构型ASR语音识别模型为DNN

HMM架构模式;
[0009]将所述待测语音序列输入预训练完成的端到端型ASR语音识别模型,获取第二文本序列,其中,所述端到端型ASR语音识别模型为Conformer+CTC架构模式;
[0010]采用对比计算的方式,获取所述第一文本序列和所述第二文本序列间的编辑距离;
[0011]基于预设的差异阈值和所述编辑距离,识别所述待测语音序列是否为方言序列;
[0012]若所述待测语音序列为方言序列,则通过所述待测语音序列的来源地区标识,确定所述方言序列所属的方言类别。
[0013]进一步的,在执行所述获取待测语音序列和所述待测语音序列的来源地区标识的步骤之后,所述方法还包括:
[0014]获取预先采集的普通话语音识别语料;
[0015]根据预设的语义标注方式,对所述普通话语音识别语料中每一句普通话序列进行语义标注,获取标注完成的普通话语音识别语料,其中,所述语义标注方式包括采用训练完成的中文自然语言处理模型进行语义标注;
[0016]按照预设的比例关系,将所述标注完成的普通话语音识别语料划分为训练集和测试集。
[0017]进一步的,在执行所述将所述待测语音序列输入预训练完成的混合结构型ASR语音识别模型,获取第一文本序列的步骤之前,所述方法还包括:
[0018]将所述训练集输入初始化后的混合结构型ASR语音识别模型,进行模型预训练,获得初步训练完成的混合结构型ASR语音识别模型;
[0019]将所述测试集输入初步训练完成的混合结构型ASR语音识别模型,进行识别验证;
[0020]若识别验证失败,则调整所述初始化后的混合结构型ASR语音识别模型的训练参数,重新进行混合结构型ASR语音识别模型预训练;
[0021]若识别验证成功,则获得预训练完成的混合结构型ASR语音识别模型。
[0022]进一步的,在执行所述将所述待测语音序列输入预训练完成的端到端型ASR语音识别模型,获取第二文本序列的步骤之前,所述方法还包括:
[0023]将所述训练集输入初始化后的端到端型ASR语音识别模型,进行模型预训练,获得初步训练完成的端到端型ASR语音识别模型;
[0024]将所述测试集输入初步训练完成的端到端型ASR语音识别模型,进行识别验证;
[0025]若识别验证失败,则调整所述初始化后的端到端型ASR语音识别模型的训练参数,重新进行端到端型ASR语音识别模型预训练;
[0026]若识别验证成功,则获得预训练完成的端到端型ASR语音识别模型。
[0027]进一步的,所述采用对比计算的方式,获取所述第一文本序列和所述第二文本序列间的编辑距离的步骤,具体包括:
[0028]获取所述第一文本序列中的文字内容和文字数量;
[0029]获取所述第二文本序列中的文字内容和文字数量;
[0030]采用对比方式,获取所述第一文本序列和所述第二文本序列中不同的文字内容;
[0031]统计所述第一文本序列和所述第二文本序列中的文字总数量;
[0032]计算所述不同的文字内容在所述文字总数量中的占比值;
[0033]将所述占比值设置为所述第一文本序列和所述第二文本序列间的编辑距离。
[0034]进一步的,所述基于预设的差异阈值和所述编辑距离,识别所述待测语音序列是否为方言序列的步骤,具体包括:
[0035]判断所述编辑距离是否超过预设的差异阈值;
[0036]若未超过,则所述待测语音序列为普通话序列;
[0037]若超过,则所述待测语音序列为方言序列。
[0038]进一步的,在执行所述通过所述待测语音序列的来源地区标识,确定所述方言序列所属的方言类别的步骤之前,所述方法还包括:
[0039]获取预先根据地区信息所划分的方言类别表,其中,所述地区信息包括全国行政区划信息;
[0040]所述通过所述待测语音序列的来源地区标识,确定所述方言序列所属的方言类别
的步骤,具体包括:
[0041]根据所述全国行政区划信息,识别出所述来源地区标识对应的地区信息;
[0042]根据所述来源地区标识对应的地区信息和所述方言类别表,确定所述方言序列所属的方言类别。
[0043]为了解决上述技术问题,本申请实施例还提供一种方言数据自动筛选识别装置,采用了如下所述的技术方案:
[0044]一种方言数据自动筛选识别装置,包括:
[0045]待测数据准备模块,用于获取待测语音序列和所述待测语音序列的来源地区标识;
[0046]第一文本序列获取模块,用于将所述待测语音序列输入预训练完成的混合结构型ASR语音识别模型,获取第一文本序列,其中,所述混合结构型ASR语音识别模型为DNN

HMM架构模式;
[0047]第二文本序列获取模块,用于将所述待测语音序列输入预训练完成的端到端型ASR语音识别模型,获取第二文本序列,其中,所述端到端型ASR语音识别模型为Conformer+CTC架构模式;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方言数据自动筛选识别方法,其特征在于,包括下述步骤:获取待测语音序列和所述待测语音序列的来源地区标识;将所述待测语音序列输入预训练完成的混合结构型ASR语音识别模型,获取第一文本序列,其中,所述混合结构型ASR语音识别模型为DNN

HMM架构模式;将所述待测语音序列输入预训练完成的端到端型ASR语音识别模型,获取第二文本序列,其中,所述端到端型ASR语音识别模型为Conformer+CTC架构模式;采用对比计算的方式,获取所述第一文本序列和所述第二文本序列间的编辑距离;基于预设的差异阈值和所述编辑距离,识别所述待测语音序列是否为方言序列;若所述待测语音序列为方言序列,则通过所述待测语音序列的来源地区标识,确定所述方言序列所属的方言类别。2.根据权利要求1所述的方言数据自动筛选识别方法,其特征在于,在执行所述获取待测语音序列和所述待测语音序列的来源地区标识的步骤之后,所述方法还包括:获取预先采集的普通话语音识别语料;根据预设的语义标注方式,对所述普通话语音识别语料中每一句普通话序列进行语义标注,获取标注完成的普通话语音识别语料,其中,所述语义标注方式包括采用训练完成的中文自然语言处理模型进行语义标注;按照预设的比例关系,将所述标注完成的普通话语音识别语料划分为训练集和测试集。3.根据权利要求2所述的方言数据自动筛选识别方法,其特征在于,在执行所述将所述待测语音序列输入预训练完成的混合结构型ASR语音识别模型,获取第一文本序列的步骤之前,所述方法还包括:将所述训练集输入初始化后的混合结构型ASR语音识别模型,进行模型预训练,获得初步训练完成的混合结构型ASR语音识别模型;将所述测试集输入初步训练完成的混合结构型ASR语音识别模型,进行识别验证;若识别验证失败,则调整所述初始化后的混合结构型ASR语音识别模型的训练参数,重新进行混合结构型ASR语音识别模型预训练;若识别验证成功,则获得预训练完成的混合结构型ASR语音识别模型。4.根据权利要求2所述的方言数据自动筛选识别方法,其特征在于,在执行所述将所述待测语音序列输入预训练完成的端到端型ASR语音识别模型,获取第二文本序列的步骤之前,所述方法还包括:将所述训练集输入初始化后的端到端型ASR语音识别模型,进行模型预训练,获得初步训练完成的端到端型ASR语音识别模型;将所述测试集输入初步训练完成的端到端型ASR语音识别模型,进行识别验证;若识别验证失败,则调整所述初始化后的端到端型ASR语音识别模型的训练参数,重新进行端到端型ASR语音识别模型预训练;若识别验证成功,则获得预训练完成的端到端型ASR语音识别模型。5.根据权利要求1所述的方言数据自动筛选识别方法,其特征在于,所述采用对比计算的方式,获取所述第一文本序列和所述...

【专利技术属性】
技术研发人员:魏韬马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1