基于长上下文的中文查错方法、装置及存储介质制造方法及图纸

技术编号:41311159 阅读:27 留言:0更新日期:2024-05-13 14:54
本发明专利技术涉及一种基于长上下文的中文查错方法,该中文查错方法包括:确定待检测文本中目标片段以及与目标片段相关联的上下文片段;将待检测文本中目标片段、位置信息以及目标片段相关联的上下文片段输入至预置的中文查错模型中,输出目标片段的查错结果,查错完成。本发明专利技术与现有技术相比,其显著优点是:本发明专利技术通过设计中文查错模型,解决了人工查看中文文本易出错,费时费力的问题;同时,使用基于长上下文的中文查错方法后,实现了快速查找中文文本可能存在的错误的目的,有效提高现有文本查错的检出率和正确率,减少文字工作者的校对工作量,提高工作效率。

【技术实现步骤摘要】

本专利技术涉及文本处理,特别是一种基于长上下文的中文查错方法、装置及存储介质


技术介绍

1、目前,针对中文文本、错别字、敏感字已有的检测方案,主要使用kenlm统计语言模型工具、transformer模型、conv_seq2seq模型、bert模型以及以bert为基础的改进模型等方式进行检测识别。而pycorrector是一个中文文本纠错工具,pycorrector依据语言模型检测错别字位置,通过拼音近似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字;pycorrector不仅集成了上面提到的多种模型,还提供了针对多种模型的快速使用方式,比如:pycorrector集成bert检测识别错别字;但是,现有的中文文本中纠错方法都是基于词或句子进行的,对语义理解会产生一定的偏差和歧义。因此,基于更加完整的语义来提高中文查错的全面性和准确性的研究是非常有必要的。

2、文献1:中国专利技术专利cn202110635441.9公开了一种基于自然语言语义分析的文本识别方法,其中虽然也提到了语义识别,但是其主要通过识别文本在自然语言中的分布纹理,并本文档来自技高网...

【技术保护点】

1.一种基于长上下文的中文查错方法,其特征在于:所述中文查错方法包括:

2.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文差错方法还包括:获取所述中文查错模型的模型训练集,对所述中文查错模型进行训练,当所述中文查错模型的训练准确率达到验证阈值时,停止训练;所述模型训练集包括若干个正确中文文本以及若干错误中文文本,所述错误中文文本通过在正确中文文本中预置错误语料形成。

3.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文查错模型包括输入层、特征提取层、编码层以及输出层,具体为:

4.根据权利要求3所述的基于长上下...

【技术特征摘要】

1.一种基于长上下文的中文查错方法,其特征在于:所述中文查错方法包括:

2.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文差错方法还包括:获取所述中文查错模型的模型训练集,对所述中文查错模型进行训练,当所述中文查错模型的训练准确率达到验证阈值时,停止训练;所述模型训练集包括若干个正确中文文本以及若干错误中文文本,所述错误中文文本通过在正确中文文本中预置错误语料形成。

3.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文查错模型包括输入层、特征提取层、编码层以及输出层,具体为:

4.根据权利要求3所述的基于长上下...

【专利技术属性】
技术研发人员:张发雨王宁孟奥党章杜宇冯立二杨正云
申请(专利权)人:江苏省未来网络创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1