中文纠错方法技术

技术编号：39669165 阅读：9 留言：0更新日期：2023-12-11 18:33

本申请提供一种中文纠错方法

全部详细技术资料下载

【技术实现步骤摘要】
中文纠错方法、系统、模型训练方法、介质及设备

[0001]本申请涉及一种中文纠错方法，特别是涉及一种中文纠错方法
、
系统
、
模型训练方法
、
介质及设备
。

技术介绍

[0002]文本纠错的主流方法与技术的发展密切相关
。
在
2018
年之前，主要采用传统的统计语言模型进行文本纠错，通过计算词语之间的搭配情况来检测错误，并通过替换混淆集中的词语来进行纠错
。
随后，深度学习与统计模型相结合的方法开始出现，根据文本差错需要采取的编辑动作类型，深度学习纠错方法可以分为两类：第一类是仅限于错别字的检测
。
这种方法将常见的替换类错误视为汉字分类问题，通过捕捉句子的细微语义来检测替换类错误
。
这种方法将句子输入到深度网络中，网络会输出隐藏向量，并通过
SOFTMAX
进行候选字概率计算，通过上下文判断每个位置的最佳目标字符
。
第二类是考虑冗余和缺失的情况
。
这种方法通过序列标记技术来定位错误的位置和类型，并修正目标
。
然而，冗余和缺失差错会导致纠错后句子的长度与原始句子不同
。
针对这种长度不同的序列转换问题，一种直观的解决方式是使用
Encoder
‑
Decoder
架构的自回归语言模型
。
例如，基于
BART
和
T5<

【技术保护点】

【技术特征摘要】
1.
一种中文纠错模型的训练方法，其特征在于，包括：将待纠错文本序列输入中文纠错模型以获取所述待纠错文本序列的多模态特征；基于所述多模态特征获取编辑标记序列以获取目标文本；基于所述待纠错文本序列和所述编辑标记序列对所述中文纠错模型进行训练以获取训练好的中文纠错模型
。2.
根据权利要求1所述的中文纠错模型的训练方法，其特征在于，获取所述待纠错文本序列的多模态特征包括：基于字义编码网络获取所述待纠错文本序列的字义特征；基于字音编码网络获取所述待纠错文本序列的字音特征；基于字形编码网络获取所述待纠错文本序列的字形特征
。3.
根据权利要求2所述的中文纠错模型的训练方法，其特征在于，基于字义编码网络获取所述待纠错文本序列的字义特征包括：基于嵌入层获取所述待纠错文本序列的词嵌入向量；基于
RoBERTa
模型获取所述待纠错文本序列的语义编码结果；基于所述词嵌入向量和所述语义编码结果获取所述字义特征
。4.
根据权利要求2所述的中文纠错模型的训练方法，其特征在于，基于字音编码网络获取所述待纠错文本序列的字音特征包括：基于嵌入编码获取所述字音特征
。5.
根据权利要求2所述的中文纠错模型的训练方法，其特征在于，基于字形编码网络获取所述待纠错文本序列的字形特征包括：将汉字字形作为图片输入至
ResNet101
网络进行目标检测以获取所述字形特征
。6.
根据...

【专利技术属性】
技术研发人员：付俊英，
申请(专利权)人：上海蜜度信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人