【技术实现步骤摘要】
本申请涉及文本数据增强,尤其涉及一种中文错别字纠正数据增强方法、装置、设备及介质。
技术介绍
1、中文错别字纠正应用十分广泛,尤其在教育或者出版领域。该任务首先判断输入文本中的每个汉字是否有错,如果有错,应该被替换成哪个汉字。中文错别字纠正的瓶颈在于训练语料(中文错别字纠正语料)非常少,专利技术人发现,已有的论文通过混淆集来构造错误-正确句子对(训练语料),但是如果不做任何限制,可能会造成大量的表示人名,地名等实体的汉字被替换。这样的数据用于训练错别字纠正模型,可能会对正确的人名,地名等实体做修改。而一般情况下,由于人名,地名,甚至还有网名等多种多样,系统修改往往是不可靠的。此外,仅仅使用混淆集替换的方法,引入的错误汉字和前后汉字通常没有语义连贯关系,甚至和前后汉字无法成词,这就造成了引入的错误比较简单,容易识别,且能够构造出的训练语料非常少,这样就导致了训练得到的中文错别字纠正模型纠正效果不是很好。
技术实现思路
1、针对上述技术问题,本申请的目的在于提供一种中文错别字纠正数据增强方法、
...【技术保护点】
1.一种中文错别字纠正数据增强方法,其特征在于,包括:
2.根据权利要求1所述的中文错别字纠正数据增强方法,其特征在于,所述若所述待比对ID不在所述实体列表中,则利用汉字混淆集和语言模型对所述待比对ID对应的汉字进行替换处理,包括:
3.根据权利要求2所述的中文错别字纠正数据增强方法,其特征在于,所述根据每一个可能的汉字对应的概率,按照预设的第一规则从所述所有可能的汉字中选取若干个汉字,作为待分析的汉字,包括:
4.根据权利要求3所述的中文错别字纠正数据增强方法,其特征在于,所述若所述待分析的汉字中存在与所述待比对ID对应的汉字相似
...【技术特征摘要】
1.一种中文错别字纠正数据增强方法,其特征在于,包括:
2.根据权利要求1所述的中文错别字纠正数据增强方法,其特征在于,所述若所述待比对id不在所述实体列表中,则利用汉字混淆集和语言模型对所述待比对id对应的汉字进行替换处理,包括:
3.根据权利要求2所述的中文错别字纠正数据增强方法,其特征在于,所述根据每一个可能的汉字对应的概率,按照预设的第一规则从所述所有可能的汉字中选取若干个汉字,作为待分析的汉字,包括:
4.根据权利要求3所述的中文错别字纠正数据增强方法,其特征在于,所述若所述待分析的汉字中存在与所述待比对id对应的汉字相似的汉字,则从所述相似的汉字中按照预设的第二规则选取一个与所述待比对id对应的汉字相似的汉字,并用选取到的相似的汉字替换所述待比对id对应的汉字,包括:
5.根据权利要求2所述的...
【专利技术属性】
技术研发人员:刘旺旺,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。