文本纠错方法、装置、设备和存储介质制造方法及图纸

技术编号:37880448 阅读:12 留言:0更新日期:2023-06-15 21:08
本发明专利技术实施例提供文本纠错方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:对获取的待纠错文本进行分词,得到多个文本词和文本词的文本候选集,基于待纠错文本和文本词的字音字形信息计算文本词的嵌入向量,再基于字符结构映射表和文本候选集获取文本词的汉字结构权重矩阵,接着将嵌入向量和汉字结构权重矩阵输入文本纠错模型输出文本候选集中每个候选词的字符概率,进而得到文本词的预测词,从而对待纠错文本进行纠错。在进行文本纠错时,利用文本词的字音字形信息生成的嵌入向量以及根据字符结构生成的汉字结构权重矩阵共同作为文本纠错模型的输入,能够学习更多的语义和汉字结构信息,提高纠错结果的准确率。确率。确率。

【技术实现步骤摘要】
文本纠错方法、装置、设备和存储介质


[0001]本专利技术涉及人工智能
,尤其涉及文本纠错方法、装置、设备和存储介质。

技术介绍

[0002]中文写作过程中难以避免出现拼写错误,通过检测和纠正文本中的拼写错误是自然语言处理中的重要领域,在信息检索、智能写作、OCR识别等诸多领域都有应用。
[0003]相关技术中,多采用基于深度学习的文本纠错模型进行中文的拼写纠错,但是这种文本纠错模型在训练时并非专门为文字纠错任务而设计,在进行纠错时往往只向模型输入字符和位置向量,而不考虑字符的字音、笔顺、结构和句子整体表述的信息,因此纠错准确率不理想。

技术实现思路

[0004]本申请实施例的主要目的在于提出文本纠错方法、装置、设备和存储介质,提高文本纠错的准确率。
[0005]为实现上述目的,本申请实施例的第一方面提出了一种文本纠错方法,包括:
[0006]获取待纠错文本,并对所述待纠错文本进行分词,得到多个文本词和所述文本词的文本候选集,所述文本候选集包括多个候选词;
[0007]基于所述待纠错文本和所述文本词的字音字形信息计算所述文本词的嵌入向量;
[0008]基于字符结构映射表和所述文本候选集获取所述文本词的汉字结构权重矩阵;
[0009]将所述嵌入向量和所述汉字结构权重矩阵输入文本纠错模型进行文本纠错,输出所述文本候选集中每个所述候选词的字符概率;
[0010]将所述文本候选集中所述字符概率最大的所述候选词作为所述文本词的预测词;
[0011]基于每个所述文本词的所述预测词得到所述待纠错文本的输出文本。
[0012]在一些实施例,所述基于所述待纠错文本和所述文本词的字音字形计算所述文本词的嵌入向量,包括:
[0013]基于预设字符嵌入向量表获取所述文本词的字符嵌入向量;
[0014]根据所述文本词在所述待纠错文本中的位置信息得到位置嵌入向量;
[0015]将所述文本词的发音信息输入第一长短时记忆网络模型进行向量生成,得到字音嵌入向量;
[0016]获取所述文本词的笔画结构,并基于笔顺信息将所述笔画结构依次输入第二长短时记忆网络模型进行向量生成,生成字形嵌入向量;
[0017]拼接所述字符嵌入向量、所述位置嵌入向量、所述字音嵌入向量和所述字形嵌入向量得到所述嵌入向量。
[0018]在一些实施例,所述基于字符结构映射表和所述文本候选集获取所述文本词的汉字结构权重矩阵之前,所述方法还包括:
[0019]构建所述字符结构映射表,构建过程包括:
[0020]获取预设字符数据库,所述预设字符数据库中包含多个预设字符;
[0021]生成每个所述预设字符的映射字符串;
[0022]计算每个所述映射字符串与其他所述映射字符串的相似度距离;
[0023]对所述相似度距离进行量化,得到每个所述预设字符与其他所述预设字符之间的相似权重值;
[0024]基于所述相似权重值构建所述字符结构映射表。
[0025]在一些实施例,所述生成每个所述预设字符的映射字符串,包括:
[0026]基于所述预设字符的预设笔顺信息对所述预设字符进行拆解,得到每个所述预设字符的预设笔画;
[0027]查询预设笔画映射表得到每个所述预设笔画的映射值,所述预设笔画映射表用于存储预设笔画的映射值;
[0028]根据所述预设笔顺信息和所述映射值得到每个所述预设字符的映射字符串。
[0029]在一些实施例,所述基于字符结构映射表和所述文本候选集获取所述文本词的汉字结构权重矩阵,包括:
[0030]在所述字符结构映射表中查询所述文本词和所述文本候选集中所述候选词的相似权重值;
[0031]根据每个所述相似权重值构建所述文本词的所述汉字结构权重矩阵。
[0032]在一些实施例,基于字符结构映射表和所述文本候选集获取所述文本词的汉字结构权重矩阵之前,所述方法还包括:
[0033]基于所述文本词对所述待纠错文本进行命名实体识别,得到所述文本词的命名实体相似词;
[0034]基于所述命名实体相似词更新所述文本词的所述文本候选集;
[0035]和/或,
[0036]基于所述文本词对所述待纠错文本进行语义成分识别,得到所述文本词的语义成分相似词;
[0037]基于所述语义成分相似词更新所述文本词的所述文本候选集。
[0038]在一些实施例,所述文本纠错模型包括:向量输出模块和概率输出模块;所述将所述嵌入向量和所述汉字结构权重矩阵输入文本纠错模型进行文本纠错,输出所述文本候选集中每个所述候选词的字符概率,包括:
[0039]将所述嵌入向量输入所述向量输出模块进行向量生成,得到输出向量;
[0040]将所述输出向量和所述汉字结构权重矩阵输入所述概率输出模块计算所述文本词的每个所述候选词的候选词概率;
[0041]根据所述候选词概率得到所述字符概率。
[0042]在一些实施例,所述将所述嵌入向量和所述汉字结构权重矩阵输入文本纠错模型进行文本纠错之前,所述方法还包括:
[0043]预训练并微调初始纠错模型得到所述文本纠错模型;
[0044]预训练并微调的过程包括:
[0045]获取训练样本集,所述训练样本集包括:训练语料样本和字符标签;所述训练语料样本中包括掩码词,所述字符标签为所述掩码词的真实字符,所述掩码词对应预测候选集,
所述预测候选集中包括多个预测候选词;
[0046]将所述训练语料样本输入所述初始纠错模型,得到每个所述预测候选词是所述掩码词的预测概率;
[0047]根据所述预测概率对应地所述预测候选词和所述字符标签计算损失函数的损失值;
[0048]根据所述损失值调整所述初始纠错模型的模型参数得到预训练纠错模型;
[0049]对所述预训练纠错模型进行微调得到所述文本纠错模型。
[0050]在一些实施例,所述训练语料样本中所述掩码词根据以下步骤生成:
[0051]基于预设选择策略在所述训练语料样本中选择所述掩码词的掩码位置;
[0052]基于掩码遮掩策略和混淆集对所述掩码位置的信息进行遮掩得到所述掩码词。
[0053]在一些实施例,所述损失函数表示为:
[0054][0055]其中,L表示所述损失函数的损失值,y
i
表示所述测试候选集中第i个所述测试候选词,m表示所述混淆集中字符的数量,n表示所述测试候选集中所述测试候选词的数量,P(y
i
=l
i
|X

)表示所述测试候选集中第i个所述测试候选词的预测概率,X

表示所述训练语料样本,l
i
表示所述训练语料样本中第i个位置的真实字符,λ表示调节系数,y
j
表示所述混淆集中第j个字符,P(y
j
=l
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:获取待纠错文本,并对所述待纠错文本进行分词,得到多个文本词和所述文本词的文本候选集,所述文本候选集包括多个候选词;基于所述待纠错文本和所述文本词的字音字形信息计算所述文本词的嵌入向量;基于字符结构映射表和所述文本候选集获取所述文本词的汉字结构权重矩阵;将所述嵌入向量和所述汉字结构权重矩阵输入文本纠错模型进行文本纠错,输出所述文本候选集中每个所述候选词的字符概率;将所述文本候选集中所述字符概率最大的所述候选词作为所述文本词的预测词;基于每个所述文本词的所述预测词得到所述待纠错文本的输出文本。2.根据权利要求1所述的文本纠错方法,其特征在于,所述基于所述待纠错文本和所述文本词的字音字形计算所述文本词的嵌入向量,包括:基于预设字符嵌入向量表获取所述文本词的字符嵌入向量;根据所述文本词在所述待纠错文本中的位置信息得到位置嵌入向量;将所述文本词的发音信息输入第一长短时记忆网络模型进行向量生成,得到字音嵌入向量;获取所述文本词的笔画结构,并基于笔顺信息将所述笔画结构依次输入第二长短时记忆网络模型进行向量生成,生成字形嵌入向量;拼接所述字符嵌入向量、所述位置嵌入向量、所述字音嵌入向量和所述字形嵌入向量得到所述嵌入向量。3.根据权利要求1所述的文本纠错方法,其特征在于,所述基于字符结构映射表和所述文本候选集获取所述文本词的汉字结构权重矩阵之前,所述方法还包括:构建所述字符结构映射表,构建过程包括:获取预设字符数据库,所述预设字符数据库中包含多个预设字符;生成每个所述预设字符的映射字符串;计算每个所述映射字符串与其他所述映射字符串的相似度距离;对所述相似度距离进行量化,得到每个所述预设字符与其他所述预设字符之间的相似权重值;基于所述相似权重值构建所述字符结构映射表。4.根据权利要求3所述的文本纠错方法,其特征在于,所述生成每个所述预设字符的映射字符串,包括:基于所述预设字符的预设笔顺信息对所述预设字符进行拆解,得到每个所述预设字符的预设笔画;查询预设笔画映射表得到每个所述预设笔画的映射值,所述预设笔画映射表用于存储预设笔画的映射值;根据所述预设笔顺信息和所述映射值得到每个所述预设字符的映射字符串。5.根据权利要求3所述的文本纠错方法,其特征在于,所述基于字符结构映射表和所述文本候选集获取所述文本词的汉字结构权重矩阵,包括:在所述字符结构映射表中查询所述文本词和所述文本候选集中所述候选词的相似权重值;
根据每个所述相似权重值构建所述文本词的所述汉字结构权重矩阵。6.根据权利要求1所述的文本纠错方法,其特征在于,基于字符结构映射表和所述文本候选集获取所述文本词的汉字结构权重矩阵之前,所述方法还包括:基于所述文本词对所述待纠错文本进行命名实体识别,得到所述文本词的命名实体相似词;基于所述命名实体相似词更新所述文本词的所述文本候选集;和/或,基于所述文本词对所述待纠错文本进行语义成分识别,得到所述文本词的语义成分相似词;基于所述语义成分相似词更新所述文本词的所述文本候选集。7.根据权利要求1至6任一项所述的文本纠错方法,其特征在于,所述文本纠错模型包括:向量输出模块和概率输出模块;所述将所述嵌入向量和所述汉字结构权重矩阵输入文本纠错模型进行文本纠错,输出所述文本候选集中每个所述候选词的字符概率,包括:将所述嵌入向量输入所述向量输出...

【专利技术属性】
技术研发人员:顾伟正王伟陈焕坤郑毅
申请(专利权)人:华润数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1