一种基于字形相似的中文纠错数据增强方法技术

技术编号：39311534 阅读：9 留言：0更新日期：2023-11-12 15:56

本发明专利技术提供一种基于字形相似的中文纠错数据增强方法，包括：建立汉字数据集N={w1,...,w

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字形相似的中文纠错数据增强方法

[0001]本专利技术属于自然语言处理（NLP）
，具体涉及一种基于字形相似的中文纠错数据增强方法。

技术介绍

[0002]中文纠错是一个重要的自然语言处理任务，涉及到自然语言理解、语言模型、词向量等多个方面的知识，当前的中文纠错方法主要分为两类，一类是基于规则的方法，一类是基于统计机器学习的方法。其中，基于规则的方法主要是通过人工涉及的一些规则对文本进行纠错，例如使用语法规则、词汇表、拼音等知识来判断文本是否存在错误，这种方法的优点是对于一些简单的错误能够处理得很好，但是对于一些复杂的错误和异形词汇则表现不佳。
[0003]基于统计机器学习的方法则是利用机器学习算法，从大规模的语料库中作为训练集，创建语言模型对文本进行纠错，这种方法的优点是能够处理复杂的错误和异形词汇，但是需要大量的标注数据，才能训练出高质量、高效率的模型。但是通过人工标注的数据方式获取模型训练数据集，标注过程耗时且成本较高，而数据量也比较有限，对于中文纠错模型的训练和性能提升带来了一定的限制，因此如何增加数据集的数据量以及提升数据质量成为一个重要问题。

技术实现思路

[0004]针对现有技术的上述不足，本专利技术提供一种基于字形相似的中文纠错数据增强方法，以解决上述技术问题。
[0005]本专利技术提供一种基于字形相似的中文纠错数据增强方法，包括：建立汉字数据集N={w1,...,wi,...,wj,...,wn}，并进行笔画笔顺编码，其中，第i个汉字wi的标准化笔画笔...

【技术保护点】

【技术特征摘要】
1.一种基于字形相似的中文纠错数据增强方法，其特征在于，包括：建立汉字数据集N={w1,...,w
i
,...,w
j
,...,w
n
}，并进行笔画笔顺编码，其中，第i个汉字w
i
的标准化笔画笔顺编码为；根据标准化笔画笔顺编码计算数据集N中任意两个汉字w
i
、w
j
的字形相似度S
j,i
，形成n
×
n的字形相似度矩阵S；利用概率分布模型计算目标词语w中第i个汉字w
i
的异形错误写法的标准化笔画笔顺编码为的概率，所述概率分布模型为：；其中，汉字w
i
的标准化的笔画编码为，是对汉字w
i
所有可能的异形错误写法w
*
的字形相似度求和的结果；筛选高于概率阈值的汉字，在其中选择一个与汉字w
i
字形相似度S
i,j
最高的汉字w
j
作为，进而得到整个目标词语w的异形错误写法w
*
；选择不同的目标词语w得到不同的异形错误写法w
*
，将w和w
*
的字形错误关系作为新的样本添加到数据集N中，得到新数据集N
*
，使用新数据集N
*
训练用于实现中文文本字形纠错的文本纠错模型。2.根据权利要求1所述的方法，其特征在于，所述异形错误写法和w
i 的标准化笔画笔顺编码长度相同；所述异形错误写法和w
i
差异在于包括替换、删除、添加的笔画、笔顺操作，而非语法、词性。3.根据权利要求1所述的方法，其特征在于，任意两个汉字w
i
、w
j
的字形相似度S
j,i
根据基于改进形码的单个汉字相似度检测算法进行计算，该基于改进形码的汉字相似度检测算法考虑的因素包括：汉字笔画笔顺编码最长公共子串占比、汉字笔画笔顺编码最长公共子串位置差、汉字笔画、汉字结构码，具体方法包括：分别计算汉字a、b对应的笔顺编码、字形结构码和笔画数；获取汉字a、b的笔画笔顺编码的公共子串，所述公共子串为两者的编...

【专利技术属性】
技术研发人员：矫娟，崔士川，杨飞越，戴林，李玉，
申请(专利权)人：山东齐鲁壹点传媒有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人