System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于长上下文的中文查错方法、装置及存储介质制造方法及图纸_技高网

基于长上下文的中文查错方法、装置及存储介质制造方法及图纸

技术编号:41311159 阅读:2 留言:0更新日期:2024-05-13 14:54
本发明专利技术涉及一种基于长上下文的中文查错方法,该中文查错方法包括:确定待检测文本中目标片段以及与目标片段相关联的上下文片段;将待检测文本中目标片段、位置信息以及目标片段相关联的上下文片段输入至预置的中文查错模型中,输出目标片段的查错结果,查错完成。本发明专利技术与现有技术相比,其显著优点是:本发明专利技术通过设计中文查错模型,解决了人工查看中文文本易出错,费时费力的问题;同时,使用基于长上下文的中文查错方法后,实现了快速查找中文文本可能存在的错误的目的,有效提高现有文本查错的检出率和正确率,减少文字工作者的校对工作量,提高工作效率。

【技术实现步骤摘要】

本专利技术涉及文本处理,特别是一种基于长上下文的中文查错方法、装置及存储介质


技术介绍

1、目前,针对中文文本、错别字、敏感字已有的检测方案,主要使用kenlm统计语言模型工具、transformer模型、conv_seq2seq模型、bert模型以及以bert为基础的改进模型等方式进行检测识别。而pycorrector是一个中文文本纠错工具,pycorrector依据语言模型检测错别字位置,通过拼音近似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字;pycorrector不仅集成了上面提到的多种模型,还提供了针对多种模型的快速使用方式,比如:pycorrector集成bert检测识别错别字;但是,现有的中文文本中纠错方法都是基于词或句子进行的,对语义理解会产生一定的偏差和歧义。因此,基于更加完整的语义来提高中文查错的全面性和准确性的研究是非常有必要的。

2、文献1:中国专利技术专利cn202110635441.9公开了一种基于自然语言语义分析的文本识别方法,其中虽然也提到了语义识别,但是其主要通过识别文本在自然语言中的分布纹理,并与背景纹理进行对比度分析;这种纹理方式局限于各文种文本图像在笔画方向分布、纹理方向分布以及纹理组成结构上存在差异的特点,存在纹理失真的情况,影响了整体文本识别效果。


技术实现思路

1、本专利技术的目的在于提供一种基于长上下文的中文查错方法、装置及存储介质,利用bert神经网络架构,对预置的错误语料进行训练,结合完整文本补齐待检测内容的上下文特征信息,从而实现对待检测内容的有效查错。

2、实现本专利技术目的的技术解决方案为:

3、一种基于长上下文的中文查错方法,该中文查错方法包括:

4、确定待检测文本中目标片段以及与目标片段相关联的上下文片段;

5、将待检测文本中目标片段、位置信息以及目标片段相关联的上下文片段输入至预置的中文查错模型中,输出目标片段的查错结果,查错完成。

6、进一步的,中文差错方法还包括:获取中文查错模型的模型训练集,对中文查错模型进行训练,当中文查错模型的训练准确率达到验证阈值时,停止训练;模型训练集包括若干个正确中文文本以及若干错误中文文本,错误中文文本通过在正确中文文本中预置错误语料形成。

7、进一步的,中文查错模型包括输入层、特征提取层、编码层以及输出层,具体为:

8、输出层包括目标片段和位置信息,以及目标片段相关联的上下文两个输入;

9、特征提取层将目标片段相关联的上下文片段进行初步特征提取后的字符向量输入至特征提取网络,得到与目标片段相关联的上下文特征向量;其中,目标片段相关联的上下文特征向量的长度与目标片段的字符向量的长度一致;

10、编码层对接收到的目标片段和位置信息进行编码、线性变换后与目标片段相关联的上下文特征向量进行叠加处理,生成归一化特征向量,并传递至输出层;

11、输出层对归一化特征向量进行独热编码,生成目标片段的查错结果并完成输出。

12、进一步的,采用滑动窗口确定待检测文本中目标片段和位置信息。

13、进一步的,编码层包括多头自注意力层和前向反馈网络层,其中:

14、多头自注意力层包括若干个子层,每个子层之间采用残差连接,得到目标片段的字符向量对应词嵌入向量的注意力权重,并根据词嵌入向量的注意力权重确定目标片段的字符向量的位置编码;

15、前向反馈网络层包括两个全连接层,第一个全连接将目标片段的词嵌入向量进行维度拓展,并采用激活函数将词嵌入向量的维度拓展结果映射到第二个全连接层,第二个全连接层将词嵌入向量从维度拓展缩减回原始维度,完成线性变换;

16、将线性变换后的目标片段的词嵌入向量与目标片段相关联的上下文特征向量进行叠加处理,生成归一化特征向量。

17、进一步的,查错结果包括目标片段中错误字符的位置以及错误类型。

18、一种文本处理装置,包括:

19、存储器,用于存储计算机程序;

20、处理器,用于执行计算机程序时实现如基于长上下文的中文查错方法的步骤。

21、一种计算机可读存储介质,该计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时实现基于长上下文的中文查错方法的步骤。

22、本专利技术与现有技术相比,其显著优点是:本专利技术通过设计中文查错模型,解决了人工查看中文文本易出错,费时费力的问题;同时,使用基于长上下文的中文查错方法后,实现了快速查找中文文本可能存在的错误的目的,有效提高现有文本查错的检出率和正确率,减少文字工作者的校对工作量,提高工作效率。

本文档来自技高网...

【技术保护点】

1.一种基于长上下文的中文查错方法,其特征在于:所述中文查错方法包括:

2.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文差错方法还包括:获取所述中文查错模型的模型训练集,对所述中文查错模型进行训练,当所述中文查错模型的训练准确率达到验证阈值时,停止训练;所述模型训练集包括若干个正确中文文本以及若干错误中文文本,所述错误中文文本通过在正确中文文本中预置错误语料形成。

3.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文查错模型包括输入层、特征提取层、编码层以及输出层,具体为:

4.根据权利要求3所述的基于长上下文的中文查错方法,其特征在于:采用滑动窗口确定待检测文本中目标片段和位置信息。

5.根据权利要求3所述的基于长上下文的中文查错方法,其特征在于:所述编码层包括多头自注意力层和前向反馈网络层,其中:

6.根据权利要求4所述的基于长上下文的中文查错方法,其特征在于:所述查错结果包括目标片段中错误字符的位置以及错误类型。

7.一种文本处理装置,其特征在于:包括:>

8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的基于长上下文的中文查错方法的步骤。

...

【技术特征摘要】

1.一种基于长上下文的中文查错方法,其特征在于:所述中文查错方法包括:

2.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文差错方法还包括:获取所述中文查错模型的模型训练集,对所述中文查错模型进行训练,当所述中文查错模型的训练准确率达到验证阈值时,停止训练;所述模型训练集包括若干个正确中文文本以及若干错误中文文本,所述错误中文文本通过在正确中文文本中预置错误语料形成。

3.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文查错模型包括输入层、特征提取层、编码层以及输出层,具体为:

4.根据权利要求3所述的基于长上下...

【专利技术属性】
技术研发人员:张发雨王宁孟奥党章杜宇冯立二杨正云
申请(专利权)人:江苏省未来网络创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1