【技术实现步骤摘要】
一种基于字形相似的中文纠错数据增强方法
[0001]本专利技术属于自然语言处理(NLP)
,具体涉及一种基于字形相似的中文纠错数据增强方法。
技术介绍
[0002]中文纠错是一个重要的自然语言处理任务,涉及到自然语言理解、语言模型、词向量等多个方面的知识,当前的中文纠错方法主要分为两类,一类是基于规则的方法,一类是基于统计机器学习的方法。其中,基于规则的方法主要是通过人工涉及的一些规则对文本进行纠错,例如使用语法规则、词汇表、拼音等知识来判断文本是否存在错误,这种方法的优点是对于一些简单的错误能够处理得很好,但是对于一些复杂的错误和异形词汇则表现不佳。
[0003]基于统计机器学习的方法则是利用机器学习算法,从大规模的语料库中作为训练集,创建语言模型对文本进行纠错,这种方法的优点是能够处理复杂的错误和异形词汇,但是需要大量的标注数据,才能训练出高质量、高效率的模型。但是通过人工标注的数据方式获取模型训练数据集,标注过程耗时且成本较高,而数据量也比较有限,对于中文纠错模型的训练和性能提升带来了一定的限制,因此如何增加数据集的数据量以及提升数据质量成为一个重要问题。
技术实现思路
[0004]针对现有技术的上述不足,本专利技术提供一种基于字形相似的中文纠错数据增强方法,以解决上述技术问题。
[0005]本专利技术提供一种基于字形相似的中文纠错数据增强方法,包括:建立汉字数据集N={w1,...,wi,...,wj,...,wn},并进行笔画笔顺编码,其中,第i个汉字wi的标准化笔画笔 ...
【技术保护点】
【技术特征摘要】
1.一种基于字形相似的中文纠错数据增强方法,其特征在于,包括:建立汉字数据集N={w1,...,w
i
,...,w
j
,...,w
n
},并进行笔画笔顺编码,其中,第i个汉字w
i
的标准化笔画笔顺编码为;根据标准化笔画笔顺编码计算数据集N中任意两个汉字w
i
、w
j
的字形相似度S
j,i
,形成n
×
n的字形相似度矩阵S;利用概率分布模型计算目标词语w中第i个汉字w
i
的异形错误写法的标准化笔画笔顺编码为的概率,所述概率分布模型为:;其中,汉字w
i
的标准化的笔画编码为,是对汉字w
i
所有可能的异形错误写法w
*
的字形相似度求和的结果;筛选高于概率阈值的汉字,在其中选择一个与汉字w
i
字形相似度S
i,j
最高的汉字w
j
作为,进而得到整个目标词语w的异形错误写法w
*
;选择不同的目标词语w得到不同的异形错误写法w
*
,将w和w
*
的字形错误关系作为新的样本添加到数据集N中,得到新数据集N
*
,使用新数据集N
*
训练用于实现中文文本字形纠错的文本纠错模型。2.根据权利要求1所述的方法,其特征在于,所述异形错误写法和w
i 的标准化笔画笔顺编码长度相同;所述异形错误写法和w
i
差异在于包括替换、删除、添加的笔画、笔顺操作,而非语法、词性。3.根据权利要求1所述的方法,其特征在于,任意两个汉字w
i
、w
j
的字形相似度S
j,i
根据基于改进形码的单个汉字相似度检测算法进行计算,该基于改进形码的汉字相似度检测算法考虑的因素包括:汉字笔画笔顺编码最长公共子串占比、汉字笔画笔顺编码最长公共子串位置差、汉字笔画、汉字结构码,具体方法包括:分别计算汉字a、b对应的笔顺编码、字形结构码和笔画数;获取汉字a、b的笔画笔顺编码的公共子串,所述公共子串为两者的编...
【专利技术属性】
技术研发人员:矫娟,崔士川,杨飞越,戴林,李玉,
申请(专利权)人:山东齐鲁壹点传媒有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。