一种基于MacBert的中文文本纠错方法技术

技术编号：38047939 阅读：9 留言：0更新日期：2023-06-30 11:14

本申请属于文本纠错领域，具体涉及一种基于MacBert的中文文本纠错方法，包括以下步骤：S1.数据预处理；S2. 修改MacBert模型；S3.候选词生成；S4.错误类型分类；S5.错误纠正器应用；S6.输出纠错后的结果。本发明专利技术较为严谨的建立中文纠错算法，并证明了该纠错算法相较于原始MacBert模型纠错性能的优越性。MacBert模型纠错性能的优越性。MacBert模型纠错性能的优越性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MacBert的中文文本纠错方法

[0001]本申请属于文本纠错领域，具体涉及一种基于MacBert的中文文本纠错方法。

技术介绍

[0002]中文文本纠错仍然存在许多挑战。中文语法、词汇的复杂性，多义性和歧义性使得中文文本纠错变得更加困难。此外，中文文本纠错还需要考虑上下文和语境等因素，这也增加了中文文本纠错的复杂性。如现有MacBert模型同样存在种种缺陷。首先，现有MacBert模型存在训练结果不稳定的现象。在参数完全一致的情况下，同一设备下的相同数据进行两次独立训练后获取的模型纠错能力并不一致甚至可能出现较大差异。其次，并非越多的优质数据训练出的MacBert模型效果越好，甚至存在精度持平甚至到精度倒退的问题。最后，MacBert模型存在误纠过多，对于垂直领域的专业术语、人名地名以及新生词汇存在理解不足，学习能力较差的问题。

技术实现思路

[0003]基于上述问题，本申请采用了针对中文文本的特殊优化策略，基于大规模的中文语料数据，对中文词语的分词和构词规则进行建模，因此具有较强的中文表达理解和处理能力。在纠错中，它可以更好地理解中文文本中的语义和语法结构，从而更准确地发现和纠正中文错误。技术方案为：一种基于MacBert的中文文本纠错方法，包括以下步骤：S1.数据预处理：对输入的文本数据进行预处理，包括分词、词性标注、构建字典、数据清洗去噪和文本向量化操作，得到词向量U=(u1,u2,
…
,u
n
), u
n
表示一个单词或者子词；S...

【技术保护点】

【技术特征摘要】
1.一种基于MacBert的中文文本纠错方法，其特征在于，包括以下步骤：S1.数据预处理：对输入的文本数据进行预处理，包括分词、词性标注、构建字典、数据清洗去噪和文本向量化操作，得到词向量U=(u1,u2,
…
,u
n
), u
n
表示一个单词或者子词；S2.修改MacBert模型：将预处理后的词向量U作为修改后模型的输入，并计算当前单词在整个文本上下文中的语义信息和位置信息；S3.错误判断及候选词生成：疑似错误的判断并生成候选词列表；S4.错误类型分类：根据疑似错误类型对候选词进行分类，得到不同类型的错误纠正器；S5.错误纠正器应用：根据错误纠正器的预测结果，对候选词列表进行排序，对每个候选词进行评分和排名，并选取最有可能是正确词汇的词进行替换；S6.输出纠错后的结果：经过纠错结果过滤器筛选后，输出最终纠错后的文本。2.根据权利要求1所述的一种基于MacBert的中文文本纠错方法，其特征在于，步骤S1的具体过程为：S11.将文本划分为一个个有意义的词语，以便后续处理；并为每个词语确定其词性；S12.构建字典是根据分词和词性标注的结果，为每个词语进行编码，将每个词语映射为一个整数值，或者将每个词语映射为一个向量表示；文本向量化则是将分词后的文本数据转换成词向量表示，以便输入到Macbert模型中进行处理；数据清洗去噪通过清洗并去除一些无用的噪声数据。3.根据权利要求1所述的一种基于MacBert的中文文本纠错方法，其特征在于，步骤S2中，修改MacBert模型包括掩码方式的修改和模型结构的修改，其中，模型结构的修改是在现有MacBert模型Self
‑
Attention 层中的softmax函数归一化后添加学习器，用于接下来其他每一次的Self
‑
Attention计算，进行前后文本的记忆和学习；在MacBert输出层后添加一个纠错结果过滤器；掩码方式的修改为基于MLM任务的修改，调整N
‑
gram masking策略中候选token的比例分布方式。4.根据权利要求1所述的一种基于MacBert的中文文本纠错方法，其特征在...

【专利技术属性】
技术研发人员：司君波，魏传强，宋耀，唐猛，陈乔，
申请(专利权)人：山东齐鲁壹点传媒有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人