一种关于中文语法纠错的误纠过滤器的建立方法技术

技术编号：39518375 阅读：10 留言：0更新日期：2023-11-25 18:56

一种关于中文语法纠错的误纠过滤器的建立方法，属于中文文本纠错领域，包括以下步骤：

全部详细技术资料下载

【技术实现步骤摘要】
一种关于中文语法纠错的误纠过滤器的建立方法

[0001]本申请属于中文文本纠错领域，具体涉及一种关于中文语法纠错的误纠过滤器的建立方法
。

技术介绍

[0002]目前中文文本语法纠错方法主要包括基于规则的方法
、
基于统计机器翻译的方法和基于深度学习的方法
。
其中，基于深度学习的方法在中文语法纠错中具有很大的优势，能够在大范围的错误类型和句子结构上实现较高的纠错准确率，并且在不断的研究和优化中不断提升性能
。
基于深度学习的中文语法纠错模型中，效果最显著的是
BART
模型
。
[0003]虽然
BART
在中文文本纠错方面有出色表现，但它也可能存在一些缺陷，导致错误纠正的情况时有发生
。
如
BART
模型倾向于更改句子的结构，避免歧义导致的过于保守的修正误纠；在正确的部分进行不必要的更改导致的正误判断模糊；模型认为自己进行正确的修改实则产生错误纠正的模型过度自信；稀有词汇和短语在预训练阶段没有充分学习导致对其处理不足，导致不正确的纠正；训练数据不足或偏差引起的模型拟合这些模式导致的误纠等，为了克服上述错误纠正的缺点，需要一种针对中文语法纠错结果的过滤策略，以应对
BART
模型为代表的基于深度学习的中文语法纠正模型的误纠问题，旨在在最终的纠正结果中仅保留准确的纠正建议，所以针对上述存在的问题，需要建立一种有效地减少误纠的过滤器，本专利技术针对这一技术问题进行解决...

【技术保护点】

【技术特征摘要】
1.
一种关于中文语法纠错的误纠过滤器的建立方法，其特征在于，包括以下步骤：
S1、
错误类型识别：通过
RNN
和
CNN
，对模型纠正输出的错误类型进行分类，将语法纠错相关的错误类型从中筛选出来，仅保留属于语法纠错的错误类型；
S2、
错误内容及索引处理：使用深度模型进行文本语法纠错后，对输出结果进行格式调整，以错误内容
、
纠正内容
、
错误内容加前后字
、
纠正内容加前后字
、
错误句子以及纠正句子的形式呈现，将每一条输出结果表示为一条向量；
S3、
构建生僻字权重向量：在进行深度模型中文语法纠错后的结果过滤处理时，采取引入由若干个不同生僻字构成的权重向量的策略，以实现对包含生僻字内容误纠结果的去除，确保只保留准确的语法纠正，每个生僻字都被赋予特定权重，并设定一个阈值，权重高于该阈值的情况下，纠正结果不包含生僻字的内容不予纠正，权重低于阈值时，对含有生僻字的内容进行纠正；
S4、
纠错结果的划分和特征向量构建：将深度模型纠错后输出的纠错结果分为含有“的”的错误和其他错误两类，对每种错误类型，提取其特征向量，并进行特征向量的计算和比较，对于含有
'
的
'
的错误，将其纠正结果与原文前后字组合，形成新文本；随后，通过比较纠错结果的特征向量与设定的阈值，判定其相似度，若特征向量相似度低于阈值，即认为该结果为误纠，进行过滤处理，只保留经过特征向量计算和过滤的纠正结果；
S5、
引入用户反馈机制：在实际应用中，引入用户反馈机制，让用户对模型提供的修改进行确认，形成一个反馈数据集，将这些反馈数据用于模型更新和迭代，能够不断优化模型的纠错能力，并且能够根据用户的反馈不断优化模型；
S6、
最终结果输出
:
通过上述步骤的处理，最终输出经过错误类型分类
、
特征向量计算
、
生僻字权重过滤以及用户反馈优化的中文文本语法纠错结果
。2.
根据权利要求1所述的关于中文语法纠错的误纠过滤器的建立方法，其特征在于，所述步骤
S1
具体包括如下过程：
S11、
数据准备：准备标注数据集，所述标注数据集包含模型纠正输出的句子
、
原始句子以及相应的错误类型标签，用于指示不同的错误类型；
S12、
模型训练：使用准备好的标注数据来训练
RNN
和
CNN
模型，输入数据为模型纠正后的句子和原始句子，目标是预测错误类型标签，训练过程中，模型通过反向传播来学习特征表示和分类决策；
S13、
错误类型分类：分类模型训练完成后，将纠正输出的句子和原始句子送入训练好的模型，模型将输出一个错误类型的预测结果，用于指示该句子中存在的错误类型；
S14、
阈值设置：设定适当的阈值，用于判断哪些错误类型被认为是存在的，用于确保仅保留与语法纠错相关的错误类型，而过滤掉其他错误类型；
S15、
错误类型过滤：基于模型的预测结果和设定的阈值，将纠正结果中被预测为语法纠错相关的错误类型筛选出来，最终输出的结果只包含语法纠错建议，从而完成语法纠错任务的筛选
。3.
根据权利要求1所述的关于中文语法纠错的误纠过滤器的建立方法，其特征在于，所述步骤
S2
具体包括如下过程：
S21、
内容和索引提取：从深度模型纠正前
、
后的文本中提取错误内容
、
纠正内容以及相
应的错误索引；
S22、
前后字添加：对错误内容和纠正内容进行文本处理，在文本前
、
后分别添加字，以提供上下文信息；
S23、
输出格式调整：调整输出结果的格式，使其以错误内容
、
纠正内容
、
错误内容加前后字
、
纠正内容加前后字
、
错误句子和纠正句子的形式呈现；
S24、
向量...

【专利技术属性】
技术研发人员：魏传强，宋耀，司俊波，唐猛，
申请(专利权)人：山东齐鲁壹点传媒有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人