【技术实现步骤摘要】
一种关于中文语法纠错的误纠过滤器的建立方法
[0001]本申请属于中文文本纠错领域,具体涉及一种关于中文语法纠错的误纠过滤器的建立方法
。
技术介绍
[0002]目前中文文本语法纠错方法主要包括基于规则的方法
、
基于统计机器翻译的方法和基于深度学习的方法
。
其中,基于深度学习的方法在中文语法纠错中具有很大的优势,能够在大范围的错误类型和句子结构上实现较高的纠错准确率,并且在不断的研究和优化中不断提升性能
。
基于深度学习的中文语法纠错模型中,效果最显著的是
BART
模型
。
[0003]虽然
BART
在中文文本纠错方面有出色表现,但它也可能存在一些缺陷,导致错误纠正的情况时有发生
。
如
BART
模型倾向于更改句子的结构,避免歧义导致的过于保守的修正误纠;在正确的部分进行不必要的更改导致的正误判断模糊;模型认为自己进行正确的修改实则产生错误纠正的模型过度自信;稀有词汇和短语在预训练阶段没有充分学习导致对其处理不足,导致不正确的纠正;训练数据不足或偏差引起的模型拟合这些模式导致的误纠等,为了克服上述错误纠正的缺点,需要一种针对中文语法纠错结果的过滤策略,以应对
BART
模型为代表的基于深度学习的中文语法纠正模型的误纠问题,旨在在最终的纠正结果中仅保留准确的纠正建议,所以针对上述存在的问题,需要建立一种有效地减少误纠的过滤器,本专利技术针对这一技术问题进行解决 ...
【技术保护点】
【技术特征摘要】
1.
一种关于中文语法纠错的误纠过滤器的建立方法,其特征在于,包括以下步骤:
S1、
错误类型识别:通过
RNN
和
CNN
,对模型纠正输出的错误类型进行分类,将语法纠错相关的错误类型从中筛选出来,仅保留属于语法纠错的错误类型;
S2、
错误内容及索引处理:使用深度模型进行文本语法纠错后,对输出结果进行格式调整,以错误内容
、
纠正内容
、
错误内容加前后字
、
纠正内容加前后字
、
错误句子以及纠正句子的形式呈现,将每一条输出结果表示为一条向量;
S3、
构建生僻字权重向量:在进行深度模型中文语法纠错后的结果过滤处理时,采取引入由若干个不同生僻字构成的权重向量的策略,以实现对包含生僻字内容误纠结果的去除,确保只保留准确的语法纠正,每个生僻字都被赋予特定权重,并设定一个阈值,权重高于该阈值的情况下,纠正结果不包含生僻字的内容不予纠正,权重低于阈值时,对含有生僻字的内容进行纠正;
S4、
纠错结果的划分和特征向量构建:将深度模型纠错后输出的纠错结果分为含有“的”的错误和其他错误两类,对每种错误类型,提取其特征向量,并进行特征向量的计算和比较,对于含有
'
的
'
的错误,将其纠正结果与原文前后字组合,形成新文本;随后,通过比较纠错结果的特征向量与设定的阈值,判定其相似度,若特征向量相似度低于阈值,即认为该结果为误纠,进行过滤处理,只保留经过特征向量计算和过滤的纠正结果;
S5、
引入用户反馈机制:在实际应用中,引入用户反馈机制,让用户对模型提供的修改进行确认,形成一个反馈数据集,将这些反馈数据用于模型更新和迭代,能够不断优化模型的纠错能力,并且能够根据用户的反馈不断优化模型;
S6、
最终结果输出
:
通过上述步骤的处理,最终输出经过错误类型分类
、
特征向量计算
、
生僻字权重过滤以及用户反馈优化的中文文本语法纠错结果
。2.
根据权利要求1所述的关于中文语法纠错的误纠过滤器的建立方法,其特征在于,所述步骤
S1
具体包括如下过程:
S11、
数据准备:准备标注数据集,所述标注数据集包含模型纠正输出的句子
、
原始句子以及相应的错误类型标签,用于指示不同的错误类型;
S12、
模型训练:使用准备好的标注数据来训练
RNN
和
CNN
模型,输入数据为模型纠正后的句子和原始句子,目标是预测错误类型标签,训练过程中,模型通过反向传播来学习特征表示和分类决策;
S13、
错误类型分类:分类模型训练完成后,将纠正输出的句子和原始句子送入训练好的模型,模型将输出一个错误类型的预测结果,用于指示该句子中存在的错误类型;
S14、
阈值设置:设定适当的阈值,用于判断哪些错误类型被认为是存在的,用于确保仅保留与语法纠错相关的错误类型,而过滤掉其他错误类型;
S15、
错误类型过滤:基于模型的预测结果和设定的阈值,将纠正结果中被预测为语法纠错相关的错误类型筛选出来,最终输出的结果只包含语法纠错建议,从而完成语法纠错任务的筛选
。3.
根据权利要求1所述的关于中文语法纠错的误纠过滤器的建立方法,其特征在于,所述步骤
S2
具体包括如下过程:
S21、
内容和索引提取:从深度模型纠正前
、
后的文本中提取错误内容
、
纠正内容以及相
应的错误索引;
S22、
前后字添加:对错误内容和纠正内容进行文本处理,在文本前
、
后分别添加字,以提供上下文信息;
S23、
输出格式调整:调整输出结果的格式,使其以错误内容
、
纠正内容
、
错误内容加前后字
、
纠正内容加前后字
、
错误句子和纠正句子的形式呈现;
S24、
向量...
【专利技术属性】
技术研发人员:魏传强,宋耀,司俊波,唐猛,
申请(专利权)人:山东齐鲁壹点传媒有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。