一种人名纠错模型的构建方法和计算机设备技术

技术编号:34326754 阅读:23 留言:0更新日期:2022-07-31 01:17
本发明专利技术涉及一种人名纠错模型的构建方法和计算机设备,属于语音识别技术领域;解决了现有技术中人名纠错方法依赖于海量数据,且纠错准确性不高的问题;本发明专利技术的人名纠错模型包括中文实体识别模型和人名预测模型;构建方法包括以下步骤:获取原始语音转写文本及对应的文本纠错后的标准文本,构建训练样本集合;利用训练样本集合,对多任务神经网络模型进行训练,并使用损失函数进行梯度更新,得到中文实体识别模型和人名预测模型;中文实体识别模型用于输出含有错误人名实体标签的文本;人名预测模型用于根据掩码后的文本,引入预先构建的人名词表,预测纠错后的人名。本发明专利技术基于人名实体进行纠错,极大提高了人名纠错的准确性和纠错效果。纠错效果。纠错效果。

Construction method and computer equipment of a person name error correction model

【技术实现步骤摘要】
一种人名纠错模型的构建方法和计算机设备


[0001]本专利技术涉及语音识别
,特别涉及一种人名纠错模型的构建方法和计算机设备。

技术介绍

[0002]近年来,随着深度学习技术的快速发展,深度学习在图像处理、自然语言处理和强化学习等领域扮演着越来越重要的角色。深度学习的训练过程就是基于海量数据自动进行特征提取,不断拟合数据的过程,隶属于机器学习。深度学习模型因为是自动进行特征提取,所以对于数据处理或特征工程的要求较低。但是该方法需要海量的数据,并且十分依赖数据的质量。
[0003]早期的文本纠错算法多基于规则、N

Gram语言模型和统计机器翻译(Statistical Machine Translation,SMT)。上述方法在一定程度可以实现文本纠错,但仍具有很大的局限性。其中,基于规则的方法是最早的实用自动审查方法,通过解析源语言句子,分析句子结构,将它们转换为目标语言。基于规则的方法需要构建海量的规则库,在不间断添加硬性规则的同时,规则之间会引发互相冲突的问题,大幅度降低纠错的准确性;基于N

Gram语言模型的方法没有办法兼顾远距离相依赖问题和数据稀疏问题,当语句中的成分间距超过N

Gram长度时,该算法就失去了纠正能力,当N

Gram长度足够长时,虽然能缓解远距离问题,但是会出现数据稀疏问题;统计机器翻译将文本纠错任务视做转换错误文本为正确文本的单语翻译任务,该方法需要海量的平行文本进行训练,系统会自动学习句子之间的统计相关性。但是统计方法需要相似的庞大训练数据,并且无法考虑上下文的语言环境,导致语言质量不高。
[0004]现有技术中的文本纠错方法对于句子中实体词语进行纠错的方案较少,且均需要海量的数据,在语音转写的文本中,人名出现错误的概率很大,这为后续数据处理带来了不便,此问题急需解决。

技术实现思路

[0005]鉴于上述的分析,本专利技术旨在提供一种人名纠错模型的构建方法和计算机设备;解决现有技术中人名纠错方法依赖于海量数据,且纠错准确性不高的问题。
[0006]本专利技术的目的主要是通过以下技术方案实现的:
[0007]一方面,本专利技术提供了一种人名纠错模型的构建方法,本专利技术的人名纠错模型包括中文实体识别模型和人名预测模型;其构建方法包括以下步骤:
[0008]获取原始语音转写文本及对应的文本纠错后的标准文本,构建训练样本集合;
[0009]利用所述训练样本集合,对多任务神经网络模型进行训练,并使用损失函数进行梯度更新,得到所述中文实体识别模型和人名预测模型;
[0010]所述中文实体识别模型用于输出含有错误人名实体标签的文本;
[0011]基于所述含有错误人名实体标签的文本对所述错误人名实体进行掩码,得到掩码
后的文本;
[0012]所述人名预测模型用于根据掩码后的所述文本,引入预先构建的人名词表,预测掩码人名及其概率值,并通过将预测的所述人名与预先构建的人名词表进行对比,以得到纠错后的人名。
[0013]进一步的,中文实体识别模型为BERT

BiLSTM

CRF模型,包括:BERT文本表示层、Bi

LSTM层和CRF层;
[0014]BERT文本表示层,采用预训练的BERT

base模型,用于将输入的所述语音转写文本表示为n*k的矩阵,其中n为所述训练样本中句子的最大长度,k为词向量维度;
[0015]Bi

LSTM层,用于根据所述文本表示层输出的文本表示得到文本中每个字符对应的标签的概率;
[0016]CRF层,用于根据所述Bi

LSTM层的输出,通过初始化转移矩阵预测人名实体标签的最佳路径。
[0017]进一步的,采用序列标注方法对所述训练样本集合中的原始语音转写文本进行错误标注,得到带有错误标签的语音转写文本;
[0018]采用命名实体识别标注方法对所述对多任务神经网络模型进行训练,以检测所述带有错误标签的语音转写文本中的人名实体,并标注人名实体标签;
[0019]判别所述错误标签对应的字是否为人名实体标签对应实体的一部分;若是,则保留错误标签,得到所述含有错误人名实体标签的文本;若不是,则取消错误标签。
[0020]进一步的,采用序列标注方法对所述原始语音转写文本进行错误标注,包括:将所述原始语音转写文本与所述对应的标准文本做对比,得到所述原始文本中的拼写错误部分、冗余错误部分、缺失错误部分和正确部分,并分别标注对应的标签。
[0021]进一步的,所述人名预测模型为预训练的Bert

MLM模型,包括嵌入层、编码层和输出层;
[0022]嵌入层,用于将掩码后的所述语音转写文本表示为包括词向量、位置嵌入和文段分割嵌入的隐向量;
[0023]编码层,用于根据所述嵌入层的输出得到具有上下文表示的隐向量;
[0024]输出层,用于输出预测得到的人名及所述人名对应的预测概率。
[0025]进一步的,根据人名预测模型预测出的人名概率值排序和编辑距离得到纠正后的人名;其中,所述编辑距离基于所述人名与预先构建的人名词表进行对比得到;
[0026]如果所述人名预测模型预测出的人名都不在所述预先构建的人名词表中,计算所述预测概率最大的人名与所述词表中人名的编辑距离,选取编辑距离最小的人名作为纠正后的人名;
[0027]如果人名预测模型预测出的至少一个人名在人名词表中,选取在词表中的所述预测概率最大的人名作为纠正后的人名。
[0028]进一步的,预先构建的人名词表为根据所述人名纠错系统应用领域的人名集合构建的人名词表。
[0029]进一步的,所述获取原始语音转写文本及与所述原始语音转写文本对应的标准文本,包括:
[0030]获取所述人名纠错方法应用领域的语音转写文本;
[0031]通过校对,得到与所述语音转写文本对应的标准文本。
[0032]进一步的,所述中文实体识别模型的损失函数为:
[0033][0034]其中,X为输入序列,y为人名实体标签,s(X,y)为标签得分函数;
[0035]所述人名预测模型的损失函数为:
[0036][0037]其中,f为根据概率值排序预先设置的被选人名数,θ为模型中所有参数的符号表示,|V|为人名词表大小;
[0038]所述人名纠错模型总损失函数为Loss=0.5*Loss1+0.5*Loss2。
[0039]另一方面,本专利技术还提供一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
[0040]存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现本专利技术涉及的人名纠错模型的构建方法。
[0041]本技术方案的有益效果:
[0042]1、本专利技术通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人名纠错模型的构建方法,其特征在于,所述人名纠错模型包括中文实体识别模型和人名预测模型;所述人名纠错模型的构建方法包括以下步骤:获取原始语音转写文本及对应的文本纠错后的标准文本,构建训练样本集合;利用所述训练样本集合,对多任务神经网络模型进行训练,并使用损失函数进行梯度更新,得到所述中文实体识别模型和人名预测模型;所述中文实体识别模型用于输出含有错误人名实体标签的文本;基于所述含有错误人名实体标签的文本对所述错误人名实体进行掩码,得到掩码后的文本;所述人名预测模型用于根据掩码后的所述文本,引入预先构建的人名词表,预测掩码人名及其概率值,并通过将预测的所述人名与预先构建的人名词表进行对比,以得到纠错后的人名。2.根据权利要求1所述的人名纠错模型的构建方法,其特征在于,所述中文实体识别模型为BERT

BiLSTM

CRF模型,包括:BERT文本表示层、Bi

LSTM层和CRF层;所述BERT文本表示层,采用预训练的BERT

base模型,用于将输入的所述语音转写文本表示为n*k的矩阵,其中n为所述训练样本中句子的最大长度,k为词向量维度;所述Bi

LSTM层,用于根据所述文本表示层输出的文本表示得到文本中每个字符对应的标签的概率;所述CRF层,用于根据所述Bi

LSTM层的输出,通过初始化转移矩阵预测人名实体标签的最佳路径。3.根据权利要求1所述的人名纠错模型的构建方法,其特征在于,采用序列标注方法对所述训练样本集合中的原始语音转写文本进行错误标注,得到带有错误标签的语音转写文本;采用命名实体识别标注方法对所述对多任务神经网络模型进行训练,以检测所述带有错误标签的语音转写文本中的人名实体,并标注人名实体标签;判别所述错误标签对应的字是否为人名实体标签对应实体的一部分;若是,则保留错误标签,得到所述含有错误人名实体标签的文本;若不是,则取消错误标签。4.根据权利要求3所述的人名纠错模型的构建方法,其特征在于,所述采用序列标注方法对所述原始语音转写文本进行错误标注,包括:将所述原始语音转写文本与所述对应的标准文本做对比,得到所述...

【专利技术属性】
技术研发人员:陈玮冯少辉张建业
申请(专利权)人:北京中科智加科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1