一种基于MacBert的中文文本纠错方法技术

技术编号:38047939 阅读:9 留言:0更新日期:2023-06-30 11:14
本申请属于文本纠错领域,具体涉及一种基于MacBert的中文文本纠错方法,包括以下步骤:S1.数据预处理;S2. 修改MacBert模型;S3.候选词生成;S4.错误类型分类;S5.错误纠正器应用;S6.输出纠错后的结果。本发明专利技术较为严谨的建立中文纠错算法,并证明了该纠错算法相较于原始MacBert模型纠错性能的优越性。MacBert模型纠错性能的优越性。MacBert模型纠错性能的优越性。

【技术实现步骤摘要】
一种基于MacBert的中文文本纠错方法


[0001]本申请属于文本纠错领域,具体涉及一种基于MacBert的中文文本纠错方法。

技术介绍

[0002]中文文本纠错仍然存在许多挑战。中文语法、词汇的复杂性,多义性和歧义性使得中文文本纠错变得更加困难。此外,中文文本纠错还需要考虑上下文和语境等因素,这也增加了中文文本纠错的复杂性。如现有MacBert模型同样存在种种缺陷。首先,现有MacBert模型存在训练结果不稳定的现象。在参数完全一致的情况下,同一设备下的相同数据进行两次独立训练后获取的模型纠错能力并不一致甚至可能出现较大差异。其次,并非越多的优质数据训练出的MacBert模型效果越好,甚至存在精度持平甚至到精度倒退的问题。最后,MacBert模型存在误纠过多,对于垂直领域的专业术语、人名地名以及新生词汇存在理解不足,学习能力较差的问题。

技术实现思路

[0003]基于上述问题,本申请采用了针对中文文本的特殊优化策略,基于大规模的中文语料数据,对中文词语的分词和构词规则进行建模,因此具有较强的中文表达理解和处理能力。在纠错中,它可以更好地理解中文文本中的语义和语法结构,从而更准确地发现和纠正中文错误。技术方案为:一种基于MacBert的中文文本纠错方法,包括以下步骤:S1.数据预处理:对输入的文本数据进行预处理,包括分词、词性标注、构建字典、数据清洗去噪和文本向量化操作,得到词向量U=(u1,u2,

,u
n
), u
n
表示一个单词或者子词;S2.修改MacBert模型:将预处理后的词向量U作为修改后模型的输入,并计算当前单词在整个文本上下文中的语义信息和位置信息;S3.错误判断及候选词生成:疑似错误的判断并生成候选词列表;S4.错误类型分类:根据疑似错误类型对候选词进行分类,得到不同类型的错误纠正器;S5.错误纠正器应用:根据错误纠正器的预测结果,对候选词列表进行排序,对每个候选词进行评分和排名,并选取最有可能是正确词汇的词进行替换;S6.输出纠错后的结果:经过纠错结果过滤器筛选后,输出最终纠错后的文本。
[0004]优选的,步骤S1的具体过程为:S11.将文本划分为一个个有意义的词语,以便后续处理;并为每个词语确定其词性;S12.构建字典是根据分词和词性标注的结果,为每个词语进行编码,将每个词语映射为一个整数值,或者将每个词语映射为一个向量表示;文本向量化则是将分词后的文本数据转换成词向量表示,以便输入到Macbert模型中进行处理;数据清洗去噪通过清洗并
去除一些无用的噪声数据。
[0005]优选的,步骤S2中,修改MacBert模型包括掩码方式的修改和模型结构的修改,其中,模型结构的修改是在现有MacBert模型Self

Attention 层中的softmax函数归一化后添加学习器,用于接下来其他每一次的Self

Attention计算,进行前后文本的记忆和学习;在MacBert输出层后添加一个纠错结果过滤器;掩码方式的修改为基于MLM任务的修改,调整N

gram masking策略中候选token的比例分布方式。
[0006]优选的,步骤S2中,通过词嵌入技术将每个单词或子词映射到一个高位空间上,并通过Transformer的多个编码器进行处理,从而产生一个最终的上下文向量V=(V1,V2,

,V
n
);这个上下文向量能够反映当前单词或字词在整个文本上下文中的语义信息和位置信息,包括它前面和后面的单词。
[0007]优选的,步骤S3的具体过程为:S31.通过步骤S2输出的语义信息和位置信息,可以得到疑似错误的位置及类型;S32.根据错误类型进行相应的候选词生成,并生成候选词列表,具体过程如下:对于每个候选词,进行特征提取,计算候选词与原文本中可能出现的正确词之间的相似度,同时,考虑上下文信息、词性标注对于候选词的影响,最终可以生成一个包含多个候选词的列表。
[0008]优选的,步骤S4的具体过程为:将生成的候选词按照疑似错误类型进行分类,根据不同的错误类型,可以构建不同的错误纠正器来进行纠错;具体来说,对于拼音的音似错误,构建音似错误纠正器,它能够根据候选词与字典中正确词汇的拼音相似度进行音似错误的修正;对于拼写的形似错误,构建形似错误纠正器,它能够根据候选词与字典中正确词汇的字形相似度进行形似错误的修正;对于语法错误,则需要构建一个语法错误纠正器,它能够根据上下文语法结构进行语法错误的修正。
[0009]优选的,步骤S5的具体过程为:S51.对于每个疑似错误的词,根据错误纠正器的预测结果对候选词列表进行排序,以便选择最有可能是正确的词汇进行替换;在排序时,可以使用错误纠正器输出的每个候选词的概率或分数进行排序,以确保被替换的词汇是最可能是正确的;S52.选择分数最高或概率最大的候选词作为纠错后的词汇;如果需要替换多个词汇,可以重复进行排序和替换的过程,直到满足需求;S53.在替换完成后,将纠错后的文本输出。
[0010]优选的,步骤S6的具体过程为:在完成错误纠正器的应用后,最终得到了一个经过排序和选择的候选词列表,对候选词列表进行一次过滤;纠错结果过滤器通常会检查替换后的文本是否符合语法和语义规则,并根据需要进行进一步的纠错和修正。
[0011]与现有技术相比,本申请有益效果如下:
(1)在MLM相似词掩码替换阶段进行优化,解决了现有macbert模型出现大量文本误纠的问题。
[0012](2)在MacBert模型Self

Attention 层中的softmax函数归一化后添加学习器,提升模型联想和记忆学习能力,使得在有限的数据下模型对新生词汇和垂直领域的专业术语有更强的理解能力。在纠错中,它可以更好地理解中文文本中的语义和语法结构,从而更准确地发现和纠正中文错误。
[0013](3)本专利模型使用了更大规模、多样化的全领域中文语料数据集,包括语料库、网络文本、新闻稿件、学术论文等不同类型的文本数据,以提高模型的泛化能力和准确性。
[0014](4)本专利针对中文特点以及中文表达理解能力,对模型结构进行了优化。加入了纠错结果审核机制,进一步有效降低文本误纠,具有较强的中文表达理解和处理能力。
[0015](5)自适应性。该模型可以通过微调的方式自适应于不同的纠错任务,可以针对不同的错误类型进行优化。
[0016](6)鲁棒性强。该模型除了能够处理多种类型的中文错误,例如错别字、病句之外,还具备了标点符号纠错功能,具有很强的鲁棒性。
附图说明
[0017]图1为本申请流程图。
具体实施方式
[0018]以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MacBert的中文文本纠错方法,其特征在于,包括以下步骤:S1.数据预处理:对输入的文本数据进行预处理,包括分词、词性标注、构建字典、数据清洗去噪和文本向量化操作,得到词向量U=(u1,u2,

,u
n
), u
n
表示一个单词或者子词;S2.修改MacBert模型:将预处理后的词向量U作为修改后模型的输入,并计算当前单词在整个文本上下文中的语义信息和位置信息;S3.错误判断及候选词生成:疑似错误的判断并生成候选词列表;S4.错误类型分类:根据疑似错误类型对候选词进行分类,得到不同类型的错误纠正器;S5.错误纠正器应用:根据错误纠正器的预测结果,对候选词列表进行排序,对每个候选词进行评分和排名,并选取最有可能是正确词汇的词进行替换;S6.输出纠错后的结果:经过纠错结果过滤器筛选后,输出最终纠错后的文本。2.根据权利要求1所述的一种基于MacBert的中文文本纠错方法,其特征在于,步骤S1的具体过程为:S11.将文本划分为一个个有意义的词语,以便后续处理;并为每个词语确定其词性;S12.构建字典是根据分词和词性标注的结果,为每个词语进行编码,将每个词语映射为一个整数值,或者将每个词语映射为一个向量表示;文本向量化则是将分词后的文本数据转换成词向量表示,以便输入到Macbert模型中进行处理;数据清洗去噪通过清洗并去除一些无用的噪声数据。3.根据权利要求1所述的一种基于MacBert的中文文本纠错方法,其特征在于,步骤S2中,修改MacBert模型包括掩码方式的修改和模型结构的修改,其中,模型结构的修改是在现有MacBert模型Self

Attention 层中的softmax函数归一化后添加学习器,用于接下来其他每一次的Self

Attention计算,进行前后文本的记忆和学习;在MacBert输出层后添加一个纠错结果过滤器;掩码方式的修改为基于MLM任务的修改,调整N

gram masking策略中候选token的比例分布方式。4.根据权利要求1所述的一种基于MacBert的中文文本纠错方法,其特征在...

【专利技术属性】
技术研发人员:司君波魏传强宋耀唐猛陈乔
申请(专利权)人:山东齐鲁壹点传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1