音义融合的中文语法序列编辑纠错方法、系统、介质、设备技术方案

技术编号:38562437 阅读:26 留言:0更新日期:2023-08-22 21:02
本发明专利技术提供一种音义融合的中文语法序列编辑纠错方法、系统、介质、设备,所述方法包括以下步骤:获取错误文本序列;基于所述错误文本序列训练文本纠错模型;其中,所述文本纠错模型用于获取所述错误文本序列对应的正确文本序列,基于所述正确文本序列获取所述错误文本序列中每个字符的标签信息,基于所述标签信息生成所述错误文本序列的表示矩阵和拼音信息,基于所述表示矩阵和所述拼音信息获取所述正确文本序列;基于训练好的文本纠错模型进行待纠错文本的纠错。本发明专利技术的音义融合的中文语法序列编辑纠错方法、系统、介质、设备结合文本的音义信息,采用神经网络模型进行中文语法纠错,有效提升了准确性和实用性。有效提升了准确性和实用性。有效提升了准确性和实用性。

【技术实现步骤摘要】
音义融合的中文语法序列编辑纠错方法、系统、介质、设备


[0001]本专利技术属于文本纠错的
,特别是涉及一种音义融合的中文语法序列编辑纠错方法、系统、介质、设备。

技术介绍

[0002]中文文本常见的错误类型可以分为四类:替换错误、多字错误、少字错误和语序交换错误,如表1所示。其中多字错误和少字错误又称为冗余错误和缺失错误。
[0003]表1、中文文本错误示例类型句子正确句子XX节那天,ABC广场上人山人海,热闹极了。替换错误XX节那天,ABC广场上人善人还,热闹极了。多字错误XX节那天,ABC广场广场上人山人海,热闹极了。少字错误XX节那天,AB广场上人山人海,热闹极了。语序交换错误XX节那天,广场ABC上人山人海,热闹极了。
[0004]现有技术中,中文文本纠错主要采用以下几种方法。
[0005](1)基于规则的中文文本纠错。
[0006]该方法主要依赖词库和分词工具。例如:对“ABCDE”中的“AB”进行纠错时,需要将“AB”和“ab”作为一对替换词加入到词库,并根据周围语义信息设置相应的规则才能准确本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音义融合的中文语法序列编辑纠错方法,其特征在于,所述方法包括以下步骤:获取错误文本序列;基于所述错误文本序列训练文本纠错模型;其中,所述文本纠错模型用于获取所述错误文本序列对应的正确文本序列,基于所述正确文本序列获取所述错误文本序列中每个字符的标签信息,基于所述标签信息生成所述错误文本序列的表示矩阵和拼音信息,基于所述表示矩阵和所述拼音信息获取所述正确文本序列;基于训练好的文本纠错模型进行待纠错文本的纠错;基于所述正确文本序列获取所述错误文本序列中每个字符的标签信息包括以下步骤:基于所述标签信息生成BERT模型的嵌入序列、检测标注序列、纠正标注序列、拼音序列;所述检测标注序列依次表示所述错误文本序列中各个字符是否正确;所述纠正标注序列依次表示所述错误文本序列中各个字符对应的纠正字符;所述拼音序列依次表示所述错误文本序列中各个字符的拼音;将所述嵌入序列输入到初始化的BERT模型层,得到所述错误文本序列的表示矩阵;将所述拼音序列输入到拼音嵌入层,得到所述拼音信息;基于所述表示矩阵和所述拼音信息获取所述正确文本序列包括以下步骤:将所述表示矩阵和所述拼音信息进行拼接,得到拼接组合信息;将所述拼接组合信息和所述检测标注序列输入到线性检测层,获取检测信息;将所述拼接组合信息和所述纠正标注序列输入到线性纠正层,得到纠正信息,所述纠正信息即为所述正确文本序列。2.根据权利要求1所述的音义融合的中文语法序列编辑纠错方法,其特征在于:获取所述错误文本序列对应的正确文本序列包括以下步骤:获取所述错误文本序列对应的所有可能的候选正确文本序列;选取后验概率最大的候选正确文本序列作为所述正确文本序列。3.根据权利要求1所述的音义融合的中文语法序列编辑纠错方法,其特征在于:所述正确文本序列和所述错误文本序列具有不同的长度。4.根据权利要求1所述的音义融合的中文语法序列编辑纠错方法,其特征在于:所述标签信息包括字符正确标签、字符删除标签、字符替换标签、字符插入标签和语序颠倒标签。5.根据权利要求1所述的音义融合的中文语法序列编辑纠错方法,其特征在于:所述文本纠错模型的损失函数采用L=λL
c
+(1

【专利技术属性】
技术研发人员:付俊英
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1