【技术实现步骤摘要】
本专利技术涉及文本处理,特别是一种基于长上下文的中文查错方法、装置及存储介质。
技术介绍
1、目前,针对中文文本、错别字、敏感字已有的检测方案,主要使用kenlm统计语言模型工具、transformer模型、conv_seq2seq模型、bert模型以及以bert为基础的改进模型等方式进行检测识别。而pycorrector是一个中文文本纠错工具,pycorrector依据语言模型检测错别字位置,通过拼音近似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字;pycorrector不仅集成了上面提到的多种模型,还提供了针对多种模型的快速使用方式,比如:pycorrector集成bert检测识别错别字;但是,现有的中文文本中纠错方法都是基于词或句子进行的,对语义理解会产生一定的偏差和歧义。因此,基于更加完整的语义来提高中文查错的全面性和准确性的研究是非常有必要的。
2、文献1:中国专利技术专利cn202110635441.9公开了一种基于自然语言语义分析的文本识别方法,其中虽然也提到了语义识别,但是其主要通过识别文本在自然
...【技术保护点】
1.一种基于长上下文的中文查错方法,其特征在于:所述中文查错方法包括:
2.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文差错方法还包括:获取所述中文查错模型的模型训练集,对所述中文查错模型进行训练,当所述中文查错模型的训练准确率达到验证阈值时,停止训练;所述模型训练集包括若干个正确中文文本以及若干错误中文文本,所述错误中文文本通过在正确中文文本中预置错误语料形成。
3.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文查错模型包括输入层、特征提取层、编码层以及输出层,具体为:
4.根据权利要
...【技术特征摘要】
1.一种基于长上下文的中文查错方法,其特征在于:所述中文查错方法包括:
2.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文差错方法还包括:获取所述中文查错模型的模型训练集,对所述中文查错模型进行训练,当所述中文查错模型的训练准确率达到验证阈值时,停止训练;所述模型训练集包括若干个正确中文文本以及若干错误中文文本,所述错误中文文本通过在正确中文文本中预置错误语料形成。
3.根据权利要求1所述的基于长上下文的中文查错方法,其特征在于:所述中文查错模型包括输入层、特征提取层、编码层以及输出层,具体为:
4.根据权利要求3所述的基于长上下...
【专利技术属性】
技术研发人员:张发雨,王宁,孟奥,党章,杜宇,冯立二,杨正云,
申请(专利权)人:江苏省未来网络创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。