多通道中文文本更正方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34497414 阅读:22 留言:0更新日期:2022-08-10 09:17
本申请涉及一种多通道中文文本更正方法、装置、计算机设备和存储介质。所述方法包括:将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列,将语法错误信息序列输入预先构建的多通道中文文本更正模型,根据语法错误信息序列中的语法错误类型匹配多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息,根据通道修正信息以及语法错误类型及定位信息,进行组合得到中文文本更正结果。采用本方法在进行中文文本纠错时,能够兼顾准确性和处理效率。能够兼顾准确性和处理效率。能够兼顾准确性和处理效率。

【技术实现步骤摘要】
多通道中文文本更正方法、装置、计算机设备和存储介质


[0001]本申请涉及自然语言处理
,特别是涉及一种多通道中文文本更正方法、装置、计算机设备和存储介质。

技术介绍

[0002]语法错误诊断是最近提出来的一项自然语言处理任务。它的核心任务是利用自然语言处理技术将输入的原始句子中所包含的缺失词(M)、冗余词(R)、字词错误(S)、词序错误(W)四大类语法错误分别标注出来,然后再结合特定的更正算法对标注的语法错误进行更正并输出纠正后的目标句子。对于具有一定知识积累的人类来说,实现上述目标并不难。但是对于计算机来说当前的更正性能还有待进一步提升。若能研制出高效的算法让计算机具备自动识别与更正语法错误的能力,这对文本挖掘任务会有极大帮助。
[0003]经过分析发现当前主流的中文语法错误纠正方法包含两大类。第一类属于非深度学习方法,它纠错速度较快,但是缺点就是准确率不高。第二类属于深度学习纠错方法,它的优势是语法错误类型识别与定位准确率较高,但缺点是采用单一的纠错模型来更正错误,导致整体纠错率偏低。
专利技术内
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多通道中文文本更正方法,其特征在于,所述方法包括:将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列;其中,所述语法错误信息序列中包括序列片段的语法错误类型以及语法错误定位信息;将所述语法错误信息序列输入预先构建的多通道中文文本更正模型,根据所述语法错误信息序列中的语法错误类型匹配所述多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息;其中,所述多通道中文文本更正模型的每个语法更正通道对应至少一个语法错误类型的处理模型;根据所述通道修正信息以及所述语法错误类型诊断及错误定位信息,进行组合得到中文文本更正结果。2.根据权利要求1所述的方法,其特征在于,所述语法错误诊断模型包括:输入层、Bi

LSTM层以及CRF输出层;所述将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列,包括:将中文文本输入预先构建的语法错误诊断模型;通过所述输入层对所述中文文本进行向量化,得到中文文本向量序列;通过所述Bi

LSTM层提取所述中文文本向量序列中结合上下文的特征向量;通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型,输出中文文本向量序列中每个待标记序列的语法错误类型以及语法错误定位信息,并且输出语法错误信息序列。3.根据权利要求2所述的方法,其特征在于,所述输入层包括:BERT词嵌入模型;通过所述输入层对所述中文文本进行向量化,得到中文文本向量序列,包括:通过所述BERT词嵌入模型对所述中文文本中的字符进行向量化,得到中文文本向量序列;所述中文文本向量序列的长度为中文文本中字的个数。4.根据权利要求2所述的方法,其特征在于,通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型,输出中文文本向量序列中每个待标记序列的语法错误类型以及语法错误定位信息,并且输出语法错误信息序列,包括:通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型;根据所述中文文本向量序列中当前待标记序列、当前待标记序列的位置、上一个已标记序列的标签以及当前待标记序列的预测标签,计算每个所述预测标签的得分,取得分最大的为当前待标记序列的语法错误类型,并且输出当前待标记序列的语法错误定位信息;根据所述语法错误类型以及所述语法错误定位信息,输出语法错误信息序列。5.根据权利要...

【专利技术属性】
技术研发人员:张翀何春辉葛斌
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1