当前位置: 首页 > 专利查询>苏州大学专利>正文

优化公文写作场景下中文文本纠错的方法、系统及处理器技术方案

技术编号:38134257 阅读:17 留言:0更新日期:2023-07-08 09:44
本发明专利技术涉及一种优化公文写作场景下中文文本纠错的方法、系统及处理器,包括以下步骤:搜集获得原始数据集;对原始数据集中的句子进行分词操作,获得高频词表;对高频词表进行扩展;对原始数据集中的多个句子进行造错,依据错误

【技术实现步骤摘要】
优化公文写作场景下中文文本纠错的方法、系统及处理器


[0001]本专利技术涉及文本处理
,尤其是指一种优化公文写作场景下中文文本纠错的方法、系统及处理器。

技术介绍

[0002]在自然语言处理(NLP)领域中,中文文本纠错任务通常包括中文语法纠错(CGEC)和中文拼写纠错(CSC)两种类型。前者旨在纠正输入句中的增删改错误情况,经典的语法纠错(GEC)方法多基于“序列到序列”的编码器

解码器框架,先对输入句进行编码,再由解码器生成纠错结果。后者则专注于纠正输入句中的错别字,主要通过对序列中的每个字进行预测的方式。基于BERT等预训练语言模型的中文拼写纠错(CSC)方法主要可以分为两类:1.直接利用官方监督数据集进行训练;2.利用无标数据构造成对样本,对模型进行预训练,再通过监督数据集对预训练模型进行微调。这些方法借鉴了BERT在NLP任务上的成功,通过预训练和微调的方式,提高了基于序列预测的中文拼写纠错模型的性能。
[0003]然而,现有技术存在以下缺陷:一方面,现有的文本纠错方法缺乏专有性,无法在公文写作场景下进行有效纠错;另一方面,基于序列预测的中文拼写纠错方法无法处理句子中多字、少字的错误情况。

技术实现思路

[0004]为此,本专利技术所要解决的技术问题在于克服现有技术中文本纠错方法在公文写作场景下的纠错能力不佳,且无法处理句子中多字、少字错误的技术缺陷。
[0005]为解决上述技术问题,本专利技术提供了一种优化公文写作场景下中文文本纠错的方法,包括以下步骤:S1、搜集获得原始数据集,所述原始数据集包括多个句子;S2、对所述原始数据集中的句子进行分词操作,获得多个分词,对每个分词出现的词频进行统计,获得高频词表,其中,高频词表包括超过预设词频数的分词;S3、对所述高频词表进行扩展,获得能够处理错别字、多字和少字性能的高频词表,具体包括:将高频词表中的每个分词前面增加少字符号,获得新的分词,将新的分词增加至原有的高频词表中;在高频词表中增加多字符号;S4、对原始数据集中的多个句子进行造错,设置预设错误比例的多字、少字和错别字,获得多个错误句子,所述错误句子和原始数据集中的句子组成错误

正确句子对,依据错误

正确句子对和高频词表对BERT编码器进行预训练,更新BERT编码器的参数;S5、从网络上收集公文写作词组,构成公文写作词表;爬取公文网站上多个正确的句子,构建公文写作数据集;S6、结合公文写作词表对所述公文写作数据集中的正确的句子进行造错,获得多
个错误的公文写作句子,所述错误的公文写作句子与正确的句子组成错误

正确句子对,依据错误

正确句子对和高频词表再次对BERT编码器进行训练,优化BERT编码器;S7、使用优化后的BERT编码器对待处理的中文文本进行预测,获得纠错后的文本输出。
[0006]作为优选的,所述S4中,对原始数据集中的多个句子进行造错,包括:使用错误一致性的策略对原始数据集中的多个句子进行造错。
[0007]作为优选的,所述S6中,对所述公文写作数据集中的正确的句子进行造错,包括:通过随机造错和结合公文词表造错的方式,分别对所述公文写作数据集中的正确的句子进行造错。
[0008]作为优选的,所述随机造错与结合公文词表造错的比例为1∶1。
[0009]作为优选的,所述S6中,对所述公文写作数据集中的正确的句子进行造错,包括:对所述公文写作数据集中的正确的句子进行多字、少字和错别字造错。
[0010]作为优选的,所述S1中的原始数据集来源于维基百科。
[0011]作为优选的,所述S3中少字符号为ADD。
[0012]作为优选的,所述S3中多字符号为下划线。
[0013]本专利技术公开了一种优化公文写作场景下中文文本纠错系统,包括:原始数据集获取模块,所述原始数据集获取模块用于搜集获得原始数据集,所述原始数据集包括多个句子;分词模块,所述分词模块用于对所述原始数据集中的句子进行分词操作,获得多个分词,对每个分词出现的词频进行统计,获得高频词表,其中,高频词表包括超过预设词频数的分词;词表扩展模块,所述词表扩展模块用于对所述高频词表进行扩展,获得能够处理错别字、多字和少字性能的高频词表,具体包括:将高频词表中的每个分词前面增加少字符号,获得新的分词,将新的分词增加至原有的高频词表中;在高频词表中增加多字符号;第一训练模块,所述第一训练模块用于对原始数据集中的多个句子进行造错,设置预设错误比例的多字、少字和错别字,获得多个错误句子,所述错误句子和原始数据集中的句子组成错误

正确句子对,依据错误

正确句子对和高频词表对BERT编码器进行预训练,更新BERT编码器的参数;公文写作词组和数据集获取单元,所述公文写作词组和数据集获取单元用于从网络上收集公文写作词组,构成公文写作词表;爬取公文网站上多个正确的句子,构建公文写作数据集;第二训练模块,所述第二训练模块用于结合公文写作词表对所述公文写作数据集中的正确的句子进行造错,获得多个错误的公文写作句子,所述错误的公文写作句子与正确的句子组成错误

正确句子对,依据错误

正确句子对和高频词表再次对BERT编码器进行训练,优化BERT编码器;输出单元,所述输出单元用于使用优化后的BERT编码器对待处理的中文文本进行预测,获得纠错后的文本输出。
[0014]本专利技术公开了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的方法。
[0015]本专利技术的上述技术方案相比现有技术具有以下优点:1.针对中文拼写纠错任务中缺失公文写作数据的问题,本专利技术爬取公文网站数据并结合公文词表进行专有性造错和专有性预训练,使得预训练模型学习公文写作文本中存在的特点,从而达到对公文写作场景中出现的错别字进行学习和纠正。
[0016]2.针对于序列预测的中文拼写纠错方法中,无法解决多字和少字错误的问题,本专利技术提出在词表中添加特殊字符,提升模型解决这两种错误的能力。
附图说明
[0017]图1为本专利技术中优化公文写作场景下中文文本纠错的方法的流程图;图2为词表的构建过程;图3为BERT编码器的纠错过程;图4为构造“错误

正确”句子对的过程;图5为BERT编码器不断学习的过程示意图;图6为BERT编码器在公文写作场景下的预训练过程。
具体实施方式
[0018]下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。
[0019]参照图1所示,本专利技术公开了一种优化公文写作场景下中文文本纠错的方法,包括以下步骤:S1、搜集获得原始数据集,原始数据集包括多个句子。
[0020]其中,原始数据集来源于维基百科。
[0021]S2、对原始数据集中的句子进行分词操作,获得多个分词,对每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优化公文写作场景下中文文本纠错的方法,其特征在于,包括以下步骤:S1、搜集获得原始数据集,所述原始数据集包括多个句子;S2、对所述原始数据集中的句子进行分词操作,获得多个分词,对每个分词出现的词频进行统计,获得高频词表,其中,高频词表包括超过预设词频数的分词;S3、对所述高频词表进行扩展,获得能够处理错别字、多字和少字性能的高频词表,具体包括:将高频词表中的每个分词前面增加少字符号,获得新的分词,将新的分词增加至原有的高频词表中;在高频词表中增加多字符号;S4、对原始数据集中的多个句子进行造错,设置预设错误比例的多字、少字和错别字,获得多个错误句子,所述错误句子和原始数据集中的句子组成错误

正确句子对,依据错误

正确句子对和高频词表对BERT编码器进行预训练,更新BERT编码器的参数;S5、从网络上收集公文写作词组,构成公文写作词表;爬取公文网站上多个正确的句子,构建公文写作数据集;S6、结合公文写作词表对所述公文写作数据集中的正确的句子进行造错,获得多个错误的公文写作句子,所述错误的公文写作句子与正确的句子组成错误

正确句子对,依据错误

正确句子对和高频词表再次对BERT编码器进行训练,优化BERT编码器;S7、使用优化后的BERT编码器对待处理的中文文本进行预测,获得纠错后的文本输出。2.根据权利要求1所述的优化公文写作场景下中文文本纠错的方法,其特征在于,所述S4中,对原始数据集中的多个句子进行造错,包括:使用错误一致性的策略对原始数据集中的多个句子进行造错。3.根据权利要求1所述的优化公文写作场景下中文文本纠错的方法,其特征在于,所述S6中,对所述公文写作数据集中的正确的句子进行造错,包括:通过随机造错和结合公文词表造错的方式,分别对所述公文写作数据集中的正确的句子进行造错。4.根据权利要求3所述的优化公文写作场景下中文文本纠错的方法,其特征在于,所述随机造错与结合公文词表造错的比例为1∶1。5.根据权利要求1所述的优化公文写作场景下中文文本纠错的方法,其特征在于,所述S6中,对所述公文写作数据集中的正确的句子进行造错,包括:对所述公文写...

【专利技术属性】
技术研发人员:耿磊吕奇曹自强曹敏付国宏
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1