文本纠错模型的训练与文本纠错方法、设备技术

技术编号:37277546 阅读:28 留言:0更新日期:2023-04-20 23:44
本申请提供了一种文本纠错模型的训练与文本纠错方法、设备,涉及人工智能技术领域,上述文本纠错模型的训练方法包括:获取训练数据,该训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本;确定训练数据中每个字符对应的输入向量,该输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;基于所述输入向量对预训练语言模型进行训练,得到文本纠错模型。上述文本纠错方法包括:将待纠错文本中每个字符对应的输入向量输入上述文本纠错模型,得到文本纠错预测结果向量;对该文本纠错预测结果向量进行解码,得到纠错后的目标文本。本申请不仅可以降低文本纠错的成本,还可以提升文本纠错的效率与准确度。与准确度。与准确度。

【技术实现步骤摘要】
文本纠错模型的训练与文本纠错方法、设备


[0001]本申请涉及人工智能
,尤其涉及一种文本纠错模型的训练与文本纠错方法、设备。

技术介绍

[0002]文本纠错属于自然语言处理的范畴,在很多智能化场景中会使用到,其主要目的是对原始文本中的输入进行错误检测,并根据自然语言处理技术对错误进行纠正。
[0003]现阶段,文本纠错通常通过定义并持续维护一个混淆词典语料库,再结合业务规则来实现,这种方式由于需要总结大量的业务规则,成本较高,另外,纠错的效率与准确度也偏低。

技术实现思路

[0004]本申请提供了一种文本纠错模型的训练与文本纠错方法、设备,不仅可以降低文本纠错的成本,还可以提升文本纠错的效率与准确度。
[0005]第一方面,本申请提供了一种文本纠错模型的训练方法,该方法包括:
[0006]获取训练数据,所述训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本;
[0007]确定所述训练数据中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本纠错模型的训练方法,其特征在于,所述方法包括:获取训练数据,所述训练数据中包括随机错误文本样本、近音错误文本样本及近形错误文本样本;确定所述训练数据中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼音表示向量及字形表示向量;基于所述输入向量对预训练语言模型进行训练,得到文本纠错模型。2.根据权利要求1所述的方法,其特征在于,所述获取训练数据之前,还包括:基于原始文本构建所述随机错误文本样本、所述近音错误文本样本以及所述近形错误文本样本;其中,所述随机错误文本样本包括随机缺字错误文本样本、随机多字错误文本样本、随机拼写错误文本样本、随机语序错误文本样本。3.根据权利要求2所述的方法,其特征在于,所述近音错误文本样本包括近音错误文本与变长近音错误文本,所述构建所述近音错误文本样本,包括:基于所述原始文本对应的拼音以及预设混淆音规则,生成所述原始文本对应的所述近音错误文本,以及基于所述随机错误文本样本已修改的错误片段与所述混淆音规则,生成所述原始文本对应的所述变长近音错误文本;所述近形错误文本样本包括近形错误文本与变长近形错误文本样本,所述构建所述近形错误文本样本,包括:基于所述原始文本以及预设形近字词典,生成所述原始文本对应的所述近形错误文本,以及基于所述随机错误文本样本已修改的错误片段与所述形近字词典,生成所述原始文本对应的所述变长近形错误文本样本。4.根据权利要求1所述的方法,其特征在于,所述确定所述训练数据中每个字符对应的输入向量,包括:查找embedding表获得所述每个字符对应的所述字符表示向量与所述位置表示向量;确定所述每个字符对应的拼音,将所述每个字符对应的拼音输入到门控循环单元GRU网络以生成所述拼音表示向量;确定所述每个字符对应的四角编码、偏旁部首信息及结构信息,将所述每个字符对应的四角编码、偏旁部首信息及结构信息拼接成的字形序列输入到所述GRU网络以生成所述字形表示向量。5.一种文本纠错方法,其特征在于,所述方法包括:获取待纠错文本中每个字符对应的输入向量,所述输入向量包括字符表示向量、位置表示向量、拼...

【专利技术属性】
技术研发人员:桑海岩邓慧刘文廉士国
申请(专利权)人:联通数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1