一种关于中文语法纠错的误纠过滤器的建立方法技术

技术编号:39518375 阅读:10 留言:0更新日期:2023-11-25 18:56
一种关于中文语法纠错的误纠过滤器的建立方法,属于中文文本纠错领域,包括以下步骤:

【技术实现步骤摘要】
一种关于中文语法纠错的误纠过滤器的建立方法


[0001]本申请属于中文文本纠错领域,具体涉及一种关于中文语法纠错的误纠过滤器的建立方法


技术介绍

[0002]目前中文文本语法纠错方法主要包括基于规则的方法

基于统计机器翻译的方法和基于深度学习的方法

其中,基于深度学习的方法在中文语法纠错中具有很大的优势,能够在大范围的错误类型和句子结构上实现较高的纠错准确率,并且在不断的研究和优化中不断提升性能

基于深度学习的中文语法纠错模型中,效果最显著的是
BART
模型

[0003]虽然
BART
在中文文本纠错方面有出色表现,但它也可能存在一些缺陷,导致错误纠正的情况时有发生


BART
模型倾向于更改句子的结构,避免歧义导致的过于保守的修正误纠;在正确的部分进行不必要的更改导致的正误判断模糊;模型认为自己进行正确的修改实则产生错误纠正的模型过度自信;稀有词汇和短语在预训练阶段没有充分学习导致对其处理不足,导致不正确的纠正;训练数据不足或偏差引起的模型拟合这些模式导致的误纠等,为了克服上述错误纠正的缺点,需要一种针对中文语法纠错结果的过滤策略,以应对
BART
模型为代表的基于深度学习的中文语法纠正模型的误纠问题,旨在在最终的纠正结果中仅保留准确的纠正建议,所以针对上述存在的问题,需要建立一种有效地减少误纠的过滤器,本专利技术针对这一技术问题进行解决


技术实现思路

[0004]本专利技术提供了一种关于中文语法纠错的误纠过滤器的建立方法,可以通过建立后的过滤器对纠正后的结果进行过滤,鉴别并排除纠正中的误纠,确保仅保留正确的纠正建议,提升了纠错结果的可靠性和准确性,有效地减少误纠

[0005]一种关于中文语法纠错的误纠过滤器的建立方法,包括以下步骤:
S1、
错误类型识别:通过
RNN

CNN
,对模型纠正输出的错误类型进行分类,将语法纠错相关的错误类型从中筛选出来,仅保留属于语法纠错的错误类型,上述中的
RNN
为循环神经网络,
CNN
为卷积神经网络;
S2、
错误内容及索引处理:使用深度模型进行文本语法纠错后,对输出结果进行格式调整,以错误内容

纠正内容

错误内容加前后字

纠正内容加前后字

错误句子以及纠正句子的形式呈现,将每一条输出结果表示为一条向量;
S3、
构建生僻字权重向量:在进行深度模型中文语法纠错后的结果过滤处理时,采取引入由若干个不同生僻字构成的权重向量的策略,以实现对包含生僻字内容误纠结果的去除,确保只保留准确的语法纠正;每个生僻字都被赋予特定权重,并设定一个阈值,权重高于该阈值的情况下,纠正结果不包含生僻字的内容不予纠正,权重低于阈值时,对含有生僻字的内容进行纠正;
S4、
纠错结果的划分和特征向量构建:将深度模型纠错后输出的纠错结果分为含

'

'
的错误和其他错误两类,对每种错误类型,提取其特征向量,并进行特征向量的计算和比较,对于含有
'

'
的错误,将其纠正结果与原文前后字组合,形成新文本;随后,通过比较纠错结果的特征向量与设定的阈值,判定其相似度,若特征向量相似度低于阈值,即认为该结果为误纠,进行过滤处理,只保留经过特征向量计算和过滤的纠正结果;
S5、
引入用户反馈机制:在实际应用中,引入用户反馈机制,让用户对模型提供的修改进行确认或调整,形成一个反馈数据集,将这些反馈数据用于模型更新和迭代,可以不断优化模型的纠错能力,并且能够根据用户的反馈不断优化模型;
S6、
最终结果输出
:
通过上述步骤的处理,最终输出经过错误类型分类

特征向量计算

生僻字权重过滤以及用户反馈优化的中文文本语法纠错结果

[0006]进一步的,所述步骤
S1
具体包括如下过程:
S11、
数据准备:准备标注数据集,所述标注数据集包含模型纠正输出的句子

原始句子以及相应的错误类型标签,用于指示不同的错误类型;
S12、
模型训练:使用准备好的标注数据来训练
RNN

CNN
模型,输入数据为模型纠正后的句子和原始句子,目标是预测错误类型标签,训练过程中,模型通过反向传播来学习特征表示和分类决策;
S13、
错误类型分类:分类模型训练完成后,将纠正输出的句子和原始句子送入训练好的模型,模型将输出一个错误类型的预测结果,用于指示该句子中存在的错误类型;
S14、
阈值设置:设定适当的阈值,用于判断哪些错误类型被认为是存在的,用于确保仅保留与语法纠错相关的错误类型,而过滤掉其他错误类型;
S15、
错误类型过滤:基于模型的预测结果和设定的阈值,将纠正结果中被预测为语法纠错相关的错误类型筛选出来,最终输出的结果只包含语法纠错建议,从而完成语法纠错任务的筛选

[0007]进一步的,所述步骤
S2
具体包括如下过程:
S21、
内容和索引提取:从深度模型纠正前

后的文本中提取错误内容

纠正内容以及相应的错误索引;
S22、
前后字添加:对错误内容和纠正内容进行文本处理,在文本前

后分别添加字,以提供上下文信息;
S23、
输出格式调整:调整输出结果的格式,使其以错误内容

纠正内容

错误内容加前后字

纠正内容加前后字

错误句子和纠正句子的形式呈现;
S24、
向量表示:将每条输出结果分别表示为一个向量,方便后续处理和分析

[0008]进一步的,所述步骤
S3
具体包括如下过程:
S31、
权重向量准备:创建一个包含若干个不同生僻字的权重向量,为每个生僻字赋予特定的权重,这些权重基于生僻字的频率

重要性等因素进行设置;
S32、
生僻字检测:对每个深度模型输出的纠正结果,逐字检查是否包含生僻字,如果包含生僻字,则进入下一步;
S33、
权重比较:对包含生僻字的纠正结果,获取其中每个生僻字在权重向量中的权重值;
S34、
阈值设定:设置一个阈值,用于区分高权重和低权重的生僻字,并用于决定何
时对含生僻字的内容进行纠正或过滤;
S35、
过滤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种关于中文语法纠错的误纠过滤器的建立方法,其特征在于,包括以下步骤:
S1、
错误类型识别:通过
RNN

CNN
,对模型纠正输出的错误类型进行分类,将语法纠错相关的错误类型从中筛选出来,仅保留属于语法纠错的错误类型;
S2、
错误内容及索引处理:使用深度模型进行文本语法纠错后,对输出结果进行格式调整,以错误内容

纠正内容

错误内容加前后字

纠正内容加前后字

错误句子以及纠正句子的形式呈现,将每一条输出结果表示为一条向量;
S3、
构建生僻字权重向量:在进行深度模型中文语法纠错后的结果过滤处理时,采取引入由若干个不同生僻字构成的权重向量的策略,以实现对包含生僻字内容误纠结果的去除,确保只保留准确的语法纠正,每个生僻字都被赋予特定权重,并设定一个阈值,权重高于该阈值的情况下,纠正结果不包含生僻字的内容不予纠正,权重低于阈值时,对含有生僻字的内容进行纠正;
S4、
纠错结果的划分和特征向量构建:将深度模型纠错后输出的纠错结果分为含有“的”的错误和其他错误两类,对每种错误类型,提取其特征向量,并进行特征向量的计算和比较,对于含有
'

'
的错误,将其纠正结果与原文前后字组合,形成新文本;随后,通过比较纠错结果的特征向量与设定的阈值,判定其相似度,若特征向量相似度低于阈值,即认为该结果为误纠,进行过滤处理,只保留经过特征向量计算和过滤的纠正结果;
S5、
引入用户反馈机制:在实际应用中,引入用户反馈机制,让用户对模型提供的修改进行确认,形成一个反馈数据集,将这些反馈数据用于模型更新和迭代,能够不断优化模型的纠错能力,并且能够根据用户的反馈不断优化模型;
S6、
最终结果输出
:
通过上述步骤的处理,最终输出经过错误类型分类

特征向量计算

生僻字权重过滤以及用户反馈优化的中文文本语法纠错结果
。2.
根据权利要求1所述的关于中文语法纠错的误纠过滤器的建立方法,其特征在于,所述步骤
S1
具体包括如下过程:
S11、
数据准备:准备标注数据集,所述标注数据集包含模型纠正输出的句子

原始句子以及相应的错误类型标签,用于指示不同的错误类型;
S12、
模型训练:使用准备好的标注数据来训练
RNN

CNN
模型,输入数据为模型纠正后的句子和原始句子,目标是预测错误类型标签,训练过程中,模型通过反向传播来学习特征表示和分类决策;
S13、
错误类型分类:分类模型训练完成后,将纠正输出的句子和原始句子送入训练好的模型,模型将输出一个错误类型的预测结果,用于指示该句子中存在的错误类型;
S14、
阈值设置:设定适当的阈值,用于判断哪些错误类型被认为是存在的,用于确保仅保留与语法纠错相关的错误类型,而过滤掉其他错误类型;
S15、
错误类型过滤:基于模型的预测结果和设定的阈值,将纠正结果中被预测为语法纠错相关的错误类型筛选出来,最终输出的结果只包含语法纠错建议,从而完成语法纠错任务的筛选
。3.
根据权利要求1所述的关于中文语法纠错的误纠过滤器的建立方法,其特征在于,所述步骤
S2
具体包括如下过程:
S21、
内容和索引提取:从深度模型纠正前

后的文本中提取错误内容

纠正内容以及相
应的错误索引;
S22、
前后字添加:对错误内容和纠正内容进行文本处理,在文本前

后分别添加字,以提供上下文信息;
S23、
输出格式调整:调整输出结果的格式,使其以错误内容

纠正内容

错误内容加前后字

纠正内容加前后字

错误句子和纠正句子的形式呈现;
S24、
向量...

【专利技术属性】
技术研发人员:魏传强宋耀司俊波唐猛
申请(专利权)人:山东齐鲁壹点传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1