一种人名纠错模型的构建方法和计算机设备技术

技术编号：34326754 阅读：23 留言：0更新日期：2022-07-31 01:17

本发明专利技术涉及一种人名纠错模型的构建方法和计算机设备，属于语音识别技术领域；解决了现有技术中人名纠错方法依赖于海量数据，且纠错准确性不高的问题；本发明专利技术的人名纠错模型包括中文实体识别模型和人名预测模型；构建方法包括以下步骤：获取原始语音转写文本及对应的文本纠错后的标准文本,构建训练样本集合；利用训练样本集合,对多任务神经网络模型进行训练，并使用损失函数进行梯度更新，得到中文实体识别模型和人名预测模型；中文实体识别模型用于输出含有错误人名实体标签的文本；人名预测模型用于根据掩码后的文本，引入预先构建的人名词表，预测纠错后的人名。本发明专利技术基于人名实体进行纠错，极大提高了人名纠错的准确性和纠错效果。纠错效果。纠错效果。

Construction method and computer equipment of a person name error correction model

全部详细技术资料下载

【技术实现步骤摘要】
一种人名纠错模型的构建方法和计算机设备

[0001]本专利技术涉及语音识别
，特别涉及一种人名纠错模型的构建方法和计算机设备。

技术介绍

[0002]近年来，随着深度学习技术的快速发展，深度学习在图像处理、自然语言处理和强化学习等领域扮演着越来越重要的角色。深度学习的训练过程就是基于海量数据自动进行特征提取，不断拟合数据的过程，隶属于机器学习。深度学习模型因为是自动进行特征提取，所以对于数据处理或特征工程的要求较低。但是该方法需要海量的数据，并且十分依赖数据的质量。
[0003]早期的文本纠错算法多基于规则、N
‑
Gram语言模型和统计机器翻译(Statistical Machine Translation，SMT)。上述方法在一定程度可以实现文本纠错，但仍具有很大的局限性。其中，基于规则的方法是最早的实用自动审查方法，通过解析源语言句子，分析句子结构，将它们转换为目标语言。基于规则的方法需要构建海量的规则库，在不间断添加硬性规则的同时，规则之间会引发互相冲突的问题，大幅度降低纠错的准确性；基于N
‑
Gram语言模型的方法没有办法兼顾远距离相依赖问题和数据稀疏问题，当语句中的成分间距超过N
‑
Gram长度时，该算法就失去了纠正能力，当N
‑
Gram长度足够长时，虽然能缓解远距离问题，但是会出现数据稀疏问题；统计机器翻译将文本纠错任务视做转换错误文本为正确文本的单语翻译任务，该方法需要海量的平行文本进行训练，系统会自动学习句子之间的统...

【技术保护点】

【技术特征摘要】
1.一种人名纠错模型的构建方法，其特征在于，所述人名纠错模型包括中文实体识别模型和人名预测模型；所述人名纠错模型的构建方法包括以下步骤：获取原始语音转写文本及对应的文本纠错后的标准文本,构建训练样本集合；利用所述训练样本集合,对多任务神经网络模型进行训练，并使用损失函数进行梯度更新，得到所述中文实体识别模型和人名预测模型；所述中文实体识别模型用于输出含有错误人名实体标签的文本；基于所述含有错误人名实体标签的文本对所述错误人名实体进行掩码，得到掩码后的文本；所述人名预测模型用于根据掩码后的所述文本，引入预先构建的人名词表，预测掩码人名及其概率值，并通过将预测的所述人名与预先构建的人名词表进行对比，以得到纠错后的人名。2.根据权利要求1所述的人名纠错模型的构建方法，其特征在于，所述中文实体识别模型为BERT
‑
BiLSTM
‑
CRF模型，包括：BERT文本表示层、Bi
‑
LSTM层和CRF层；所述BERT文本表示层，采用预训练的BERT
‑
base模型，用于将输入的所述语音转写文本表示为n*k的矩阵，其中n为所述训练样本中句子的最大长度，k为词向量维度；所述Bi
‑
LSTM层，用于根据所述文本表示层输出的文本表示得到文本中每个字符对应的标签的概率；所述CRF层，用于根据所述Bi
‑
LSTM层的输出，通过初始化转移矩阵预测人名实体标签的最佳路径。3.根据权利要求1所述的人名纠错模型的构建方法，其特征在于，采用序列标注方法对所述训练样本集合中的原始语音转写文本进行错误标注，得到带有错误标签的语音转写文本；采用命名实体识别标注方法对所述对多任务神经网络模型进行训练，以检测所述带有错误标签的语音转写文本中的人名实体，并标注人名实体标签；判别所述错误标签对应的字是否为人名实体标签对应实体的一部分；若是，则保留错误标签，得到所述含有错误人名实体标签的文本；若不是，则取消错误标签。4.根据权利要求3所述的人名纠错模型的构建方法，其特征在于，所述采用序列标注方法对所述原始语音转写文本进行错误标注，包括：将所述原始语音转写文本与所述对应的标准文本做对比，得到所述...

【专利技术属性】
技术研发人员：陈玮，冯少辉，张建业，
申请(专利权)人：北京中科智加科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人