一种基于信审场景的上下文语音识别纠错方法技术

技术编号:38711127 阅读:11 留言:0更新日期:2023-09-08 14:54
本发明专利技术公开了一种基于信审场景的上下文语音识别纠错方法,包括如下步骤:获取待纠错语句的上下文语句;将待纠错的语句及其对应的上下文语句输入到预先建立并训练的纠错模型中进行纠错后输出正确的语句文本;其中预先建立的纠错模型包括:预训练的Bert模型、双向GRU模型、错误词纠正模块;其中语序连Bert模型输入待纠错语句并将其转换成句子向量;双向GRU模型输入上下文语句并将其生成上下文向量;将句子向量和上下文向量进行信息融合后送入到错误次纠正模块中进行识别纠正并输出对应的正确语句文本。正确语句文本。正确语句文本。

【技术实现步骤摘要】
一种基于信审场景的上下文语音识别纠错方法


[0001]本专利技术涉及金融信贷审查领域,特别涉及一种基于信审场景的上下文语音识别纠错方法。

技术介绍

[0002]人工信审目前多采用电话沟通的方式,信审结束后会使用自然语言理解模块(NLU)对通话内容进行分析和内容提取,例如提取贷款申请人的各项信息,或者判断信审员是否按照要求进行提问。由于NLU模块接收文本输入,所以需要用语音转文本(ASR)将语音信号转变为文本信号。但是目前一个很大的问题就是ASR的结果因为信号或者说话人口音等问题往往会出现错误,这种存在错误的文本数据提供给NLU模块很可能导致下游应用结果的不准确。
[0003]针对一些简单的ASR错误,例如错字导致整个句子不通顺,相对还比较好解决。但是针对比较复杂的错误,例如整体ASR结果读下来是比较通顺的,但是某个词或者短语需要结合上下文,甚至用户和客服说的话都要考虑才能发现用在这里是不合适的。
[0004]自然语言理解(NLU)作为一项人工智能技术被广泛应用在各行各业需要让机器对文本进行理解的地方,特别是在客服等对话领域,不管是对客服进行质检还是对客服和用户通话沟通内容进行分析,我们都需要自然语言理解的技术。NLU的输入就是一段文本,输出就是这段文本表达的意图(分类)或者文本中的重要信息提炼(实体提取)。但是在客服等电话沟通场景,NLU模块接收到的输入是经过ASR模块的结果,因此ASR模块结果的错误就会对NLU产生较大的影响。
[0005]业界目前有很多的方案在进行语音识别的纠错,主要分为N

gram统计语言模型和预训练语言模型。对于传统的N

gram统计语言模型来说,首先是通过大量文本统计出一个较大的n

gram词典,然后对于待纠错文本,分词后看每个词在n

gram中的频率是否小于一定阈值,如果小于阈值甚至没有出现过,则认为该词可能存在错误。然后再基于一个错词词典找到该错误词的常见正确形式,对该位置进行纠错。这种方法的主要问题就是效果比较差,并且难以拓展,N

gram语言模型虽然能看到每个词的前后一个或者两个词,对于长距离的语言信息就难以捕捉到了,所以N

gram模型在实际使用的时候往往效果很差。
[0006]另外就是从Bert系列预训练语言模型被广泛使用后,很多人会基于这个模型来进行ASR错误的识别和纠正,但是直接迁移Bert模型用作纠错往往效果不好,因为原始Bert系列模型并不是针对纠错来训练的。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的不足,提供一种基于信审场景的上下文语音识别纠错方法,对ASR模型输出的文本信息进行纠错并输出正确的文本,提高后续NLU模块的准确性。
[0008]为了实现上述目的,本专利技术采用的技术方案为:一种基于信审场景的上下文语音
识别纠错方法,包括
[0009]获取待纠错语句的上下文语句;
[0010]将待纠错的语句及其对应的上下文语句输入到预先建立并训练的纠错模型中进行纠错后输出正确的语句文本;
[0011]其中预先建立的纠错模型包括:
[0012]预训练的Bert模型、双向GRU模型、错误词纠正模块;
[0013]其中语序连Bert模型输入待纠错语句并将其转换成句子向量;
[0014]双向GRU模型输入上下文语句并将其生成上下文向量;
[0015]将句子向量和上下文向量进行信息融合后送入到错误次纠正模块中进行识别纠正并输出对应的正确语句文本。
[0016]采用MLM方式对Bert模型进行预训练从而得到预训练的Bert模型。
[0017]对建立的纠错模型进行训练包括:
[0018]在训练时增加错误位置检测模块至纠错模型中;
[0019]建立待纠错语句及其对应的上下文语句的训练数据库;
[0020]基于数据库对纠错模型进行训练:
[0021]其中将数据库中的待纠错的句子及其上下文输入到纠错模型中;
[0022]Bert模型将待纠错句子转换成句子向量、双向GRU模型将上下文句子转换文想下文向量;
[0023]将上下文向量的信息融合到当前纠错句子中形成融合向量;
[0024]将融合向量分别送入到错误位置检测模块和错误词纠正模块中并得到各自的损失值detect loss和correct loss,按照设定权重求得两者在权重系数下的最终的final loss,在纠错模型训练时以final loss最小为目标进行训练。
[0025]采用MLM方式对Bert模型进行预训练包括:采用针对输入语句文本随机遮盖一部分词,然后让模型对遮盖部分进行预测的方式进行训练。
[0026]所述基座Bert模型为具有多层transformer结构的Bert模型。
[0027]所述错误位置检测模块采用前馈神经网络FFN和sigmoid函数组成。
[0028]所述错误词纠正模块采用前馈网络FNN和Softmax函数组成。
[0029]在纠错模型训练前,随机初始化Bi

GRU模型参数、错误次纠正模块参数、错误位置检测模块参数。
[0030]整体纠错模型参数更新基于链式法则进行计算,final loss为模型预测结果和真实标签之间的误差,根据链式法则使用误差对模型中参数求偏导数得到具体每个参数需要更新数据并进行参数更新。
[0031]通过attention计算将上下文向量的信息融合到当前纠错句子中。
[0032]本专利技术的优点在于:通过使用信审场景数据对Bert模型进行进一步预训练,提升了语言模型对特定领域数据的理解。针对当前很多ASR纠错缺少对上下文理解的问题,通过将上下文信息和Bert模型得到的当前句信息进行融合,提升了针对ASR纠错的准确率。另外,通过将错误位置检测和错误词纠正模块放到一个模型来一起优化,相对于传统方法将这两个模块分成两个模型大大降低了训练成本和部署成本。通过对ASR输出的错误文本进行准确可靠的纠正,使得文本信息更加准确可靠,进而为后续的信审提供的准确可靠的文
本信息,方便实现信审业务的自动化、机器化,提高效率。
附图说明
[0033]下面对本专利技术说明书各幅附图表达的内容及图中的标记作简要说明:
[0034]图1为本专利技术基于MLM方式训练Bert模型的原理示意图;
[0035]图2为本专利技术纠错模型训练时模型原理图;
[0036]图3为本专利技术纠错模型应用时原理示意图。
具体实施方式
[0037]下面对照附图,通过对最优实施例的描述,对本专利技术的具体实施方式作进一步详细的说明。
[0038]本申请针对传统的统计学习模型,由于N

gram主要是统计词元组出现的频率,导致纠错效果差,并且很难迁移,另外统计学习模型也不具备任何语义理解上的能力。Bert系列的预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信审场景的上下文语音识别纠错方法,其特征在于:获取待纠错语句的上下文语句;将待纠错的语句及其对应的上下文语句输入到预先建立并训练的纠错模型中进行纠错后输出正确的语句文本;其中预先建立的纠错模型包括:预训练的Bert模型、双向GRU模型、错误词纠正模块;其中语序连Bert模型输入待纠错语句并将其转换成句子向量;双向GRU模型输入上下文语句并将其生成上下文向量;将句子向量和上下文向量进行信息融合后送入到错误词纠正模块中进行识别纠正并输出对应的正确语句文本。2.如权利要求1所述的一种基于信审场景的上下文语音识别纠错方法,其特征在于:采用MLM方式对Bert模型进行预训练从而得到预训练的Bert模型。3.如权利要求1所述的一种基于信审场景的上下文语音识别纠错方法,其特征在于:对建立的纠错模型进行训练包括:在训练时增加错误位置检测模块至纠错模型中;建立待纠错语句及其对应的上下文语句的训练数据库;基于数据库对纠错模型进行训练:其中将数据库中的待纠错的句子及其上下文输入到纠错模型中;Bert模型将待纠错句子转换成句子向量、双向GRU模型将上下文句子转换成上下文向量;将上下文向量的信息融合到当前纠错句子中形成融合向量;将融合向量分别送入到错误位置检测模块和错误词纠正模块中并得到各自的损失值detect loss和correct loss,按照设定权重求得两者在权重系数下的最终的final loss,在纠错模型训练时以final loss最小为目标进行训练。4.如权利要求2所述的一种基于信审场景的上下文语音识别纠错方法,其...

【专利技术属性】
技术研发人员:王延松宋青原魏文杨王伟玮
申请(专利权)人:奇瑞徽银汽车金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1