一种基于字形相似的中文纠错数据增强方法技术

技术编号:39311534 阅读:9 留言:0更新日期:2023-11-12 15:56
本发明专利技术提供一种基于字形相似的中文纠错数据增强方法,包括:建立汉字数据集N={w1,...,w

【技术实现步骤摘要】
一种基于字形相似的中文纠错数据增强方法


[0001]本专利技术属于自然语言处理(NLP)
,具体涉及一种基于字形相似的中文纠错数据增强方法。

技术介绍

[0002]中文纠错是一个重要的自然语言处理任务,涉及到自然语言理解、语言模型、词向量等多个方面的知识,当前的中文纠错方法主要分为两类,一类是基于规则的方法,一类是基于统计机器学习的方法。其中,基于规则的方法主要是通过人工涉及的一些规则对文本进行纠错,例如使用语法规则、词汇表、拼音等知识来判断文本是否存在错误,这种方法的优点是对于一些简单的错误能够处理得很好,但是对于一些复杂的错误和异形词汇则表现不佳。
[0003]基于统计机器学习的方法则是利用机器学习算法,从大规模的语料库中作为训练集,创建语言模型对文本进行纠错,这种方法的优点是能够处理复杂的错误和异形词汇,但是需要大量的标注数据,才能训练出高质量、高效率的模型。但是通过人工标注的数据方式获取模型训练数据集,标注过程耗时且成本较高,而数据量也比较有限,对于中文纠错模型的训练和性能提升带来了一定的限制,因此如何增加数据集的数据量以及提升数据质量成为一个重要问题。

技术实现思路

[0004]针对现有技术的上述不足,本专利技术提供一种基于字形相似的中文纠错数据增强方法,以解决上述技术问题。
[0005]本专利技术提供一种基于字形相似的中文纠错数据增强方法,包括:建立汉字数据集N={w1,...,wi,...,wj,...,wn},并进行笔画笔顺编码,其中,第i个汉字wi的标准化笔画笔顺编码为;根据标准化笔画笔顺编码计算数据集N中任意两个汉字wi、wj的字形相似度Sj,i,形成n
×
n的字形相似度矩阵S;利用概率分布模型计算目标词语w中第i个汉字wi的异形错误写法的标准化笔画笔顺编码为的概率:
[0006]其中,汉字w
i
的标准化的笔画编码为,是对汉字w
i
所有可能的异形错误写法w
*
的字形相似度求和的结果;
筛选高于概率阈值的汉字,在其中选择一个与汉字w
i
字形相似度S
i,j
最高的汉字w
j
作为,进而得到整个目标词语w的异形错误写法w
*
;选择不同的目标词语w得到不同的异形错误写法w
*
,将w和w
*
的字形错误关系作为新的样本添加到数据集N中,得到新数据集,使用新数据集训练用于实现中文文本字形纠错的文本纠错模型。
[0007]进一步的,所述异形错误写法和w
i
标准化笔画笔顺编码长度相同;所述异形错误写法和w
i
差异在于包括替换、删除、添加的笔画、笔顺操作,而非语法、词性。
[0008]进一步的,任意两个汉字w
i
、w
j
的字形相似度S
j,i
根据基于改进形码的单个汉字相似度检测算法进行计算,该基于改进形码的汉字相似度检测算法考虑的因素包括:汉字笔画笔顺编码最长公共子串占比、汉字笔画笔顺编码最长公共子串位置差、汉字笔画、汉字结构码,具体方法包括:分别计算汉字a、b对应的笔顺编码、字形结构码和笔画数;获取汉字a、b的笔画笔顺编码的公共子串,所述公共子串为两者的编码中连续相同的字符串,比较a、b汉字笔画笔顺编码的长短,得到两者编码中的较短的长度d=Min(len a,len b),两者编码中的较长的长度s=Max(len a,len b),计算最长公共子串长度为Lcs_len,得到汉字笔画笔顺编码最长公共子串占比;计算汉字笔画数差值c=|len a

len b|,得到笔画数差值对相似度的贡献比;计算笔顺编码最长公共子串的位置差,获取汉字a的笔顺编码中最长公共子串位置a_p,汉字b的笔顺编码中最长公共子串位置b_p,其中a_p和b_p分别为最长公共子串第一位字符在笔画笔顺编码中的位置,汉字笔画笔顺编码最长公共子串位置差p=|a_p

b_p|,得到最长公共子串位置对字形相似度的贡献比;计算两个汉字结构码的汉明距离ham,得到汉字结构码贡献度;字形相似度计算公式Simxing(a,b)= ,其中,设置汉字笔画笔顺编码最长公共子串占比、汉字笔画数、汉字笔画笔顺编码最长公共子串位置差、汉字结构码的贡献参数α,β,i,j。
[0009]进一步的,基于汉字字形单个特征的中文字符串加权编辑距离相似度算法,计算中文字符串s1、s2的字形相似度Sim(s1,s2);具体方法包括:计算中文字符串s1、s2中的长度较短者min_s=Min(s1,s2),计算中文字符串s1、s2中的长度较长者max_s=Max(s1,s2),并将min_s和max_s中的所有汉字转为形码;将min_s中的所有汉字与max_s中的所有汉字遍历进行单个汉字相似度计算,以min_s中每个汉字为对照,对应寻找max_s中的相似度最近的汉字,将max_s重新排序;如果min_s与max_s等长且完全匹配,即每个汉字匹配组相似度都为1,则不考虑
位置因素直接计算字形相似度,其中sum_sim为对应位置每组汉字的相似度和;否则计算位置影响因素,其中sum_position为max_s的字符位置交换前后的位置差的绝对值之和;将发生位置交换的max_s与min_s用加权编辑距离算法求编辑距离,即lds(max_s,min_s),具体的计算方法为:;根据编辑距离计算中文字符串s1、s2的字形相似度;。
[0010]进一步的,通过求取N个正确的中文字符串,可以基于字形相似,创建出若干个包含字形相似错误的错误语句,作为纠错训练数据的噪声,增强针对字形纠错的训练数据。
[0011]本专利技术的有益效果在于:通过对汉字的笔顺笔画进行标准化编码,从而提取出相似字形的字词,提供改进形码的单个汉字相似度检测算法实现单个汉字的相似度计算,提供基于汉字字形单个特征的中文字符串加权编辑距离相似度算法实现汉字字符串的相似度计算。这样扩充的训练样本能够更好地反映出实际使用中的字形错误情况,从而增加文本纠错模型在字形纠错方面的能力。
[0012]此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
[0013]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1是本专利技术一个实施例的方法的示意性流程图。
具体实施方式
[0015]为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于字形相似的中文纠错数据增强方法,其特征在于,包括:建立汉字数据集N={w1,...,w
i
,...,w
j
,...,w
n
},并进行笔画笔顺编码,其中,第i个汉字w
i
的标准化笔画笔顺编码为;根据标准化笔画笔顺编码计算数据集N中任意两个汉字w
i
、w
j
的字形相似度S
j,i
,形成n
×
n的字形相似度矩阵S;利用概率分布模型计算目标词语w中第i个汉字w
i
的异形错误写法的标准化笔画笔顺编码为的概率,所述概率分布模型为:;其中,汉字w
i
的标准化的笔画编码为,是对汉字w
i
所有可能的异形错误写法w
*
的字形相似度求和的结果;筛选高于概率阈值的汉字,在其中选择一个与汉字w
i
字形相似度S
i,j
最高的汉字w
j
作为,进而得到整个目标词语w的异形错误写法w
*
;选择不同的目标词语w得到不同的异形错误写法w
*
,将w和w
*
的字形错误关系作为新的样本添加到数据集N中,得到新数据集N
*
,使用新数据集N
*
训练用于实现中文文本字形纠错的文本纠错模型。2.根据权利要求1所述的方法,其特征在于,所述异形错误写法和w
i 的标准化笔画笔顺编码长度相同;所述异形错误写法和w
i
差异在于包括替换、删除、添加的笔画、笔顺操作,而非语法、词性。3.根据权利要求1所述的方法,其特征在于,任意两个汉字w
i
、w
j
的字形相似度S
j,i
根据基于改进形码的单个汉字相似度检测算法进行计算,该基于改进形码的汉字相似度检测算法考虑的因素包括:汉字笔画笔顺编码最长公共子串占比、汉字笔画笔顺编码最长公共子串位置差、汉字笔画、汉字结构码,具体方法包括:分别计算汉字a、b对应的笔顺编码、字形结构码和笔画数;获取汉字a、b的笔画笔顺编码的公共子串,所述公共子串为两者的编...

【专利技术属性】
技术研发人员:矫娟崔士川杨飞越戴林李玉
申请(专利权)人:山东齐鲁壹点传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1