System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及中文语法纠错,尤其是一种中文语法纠错方法及系统。
技术介绍
1、中文语法纠错的方法主要有两种方案,一种是基于机器翻译模式的seq2seq方式,一种是基于编辑标签预测的seq2edit方式。基于机器翻译的seq2seq架构,因为其是自回归语言模型,存在着推理速度慢,需要大量的训练数据的问题,其次它的可解释性差,无法判别句子的具体语法错误类型,在速度性能上无法满足实际生产环境的需要。目前seq2edit架构也存在很多的问题,一是bert预训练语言模型由遮蔽语言建模(mlm,masked languagemodeling)和上下文匹配(nsp,next sentence predict)两个任务预训练而成,缺乏单词插入和删除相关的预训练任务,而语法纠错任务存在很多冗余和缺失的错误;二是对编辑标签的要求高,编辑标签的预测空间太大。
技术实现思路
1、本申请的目的是提供一种中文语法纠错方法及系统,旨在提升中文语法纠错的准确性。
2、本申请实施例提供一种中文语法纠错方法,该方法包括:
3、s1:获取包含语法错误的原文本;
4、s2:将所述原文本输入至预训练后的bert模型,输出语义表征向量;
5、s3:将所述语义表征向量分别经过两个不同的具有归一化的两层前馈神经网络,分别得到复制概率和错误类型概率,并返回错误类型概率的最大值的索引值,基于所述最大值的索引值确定复制分发向量;
6、基于所述语义表征向量计算得到编辑标签概率;
...【技术保护点】
1.一种中文语法纠错方法,其特征在于,包括:
2.根据权利要求1所述的中文语法纠错方法,其特征在于,S2中,Bert模型的预训练过程包括:
3.根据权利要求2所述的中文语法纠错方法,其特征在于,S2.1中,所述对所述无错误的文本进行替换操作和插入操作得到损失文本包括:
4.根据权利要求1所述的中文语法纠错方法,其特征在于,S3中,得到复制概率和错误类型概率的计算公式为:
5.根据权利要求4所述的中文语法纠错方法,其特征在于,S3中,所述返回错误类型概率的最大值的索引值,基于所述最大值的索引值确定复制分发向量包括:
6.根据权利要求1所述的中文语法纠错方法,其特征在于,S3中,所述基于所述语义表征向量计算得到编辑标签概率包括:
7.根据权利要求1所述的中文语法纠错方法,其特征在于,S4中,最终的编辑标签概率的计算公式为:
8.根据权利要求1所述的中文语法纠错方法,其特征在于,S4中,所述基于所述最终的编辑标签概率确定最终的编辑标签包括通过Argmax函数返回最终的编辑标签概率的最大值的索引,得到最终
9.根据权利要求1所述的中文语法纠错方法,其特征在于,编辑标签包括保持、删除、替换、插入。
10.一种中文语法纠错系统,其特征在于,包括:
...【技术特征摘要】
1.一种中文语法纠错方法,其特征在于,包括:
2.根据权利要求1所述的中文语法纠错方法,其特征在于,s2中,bert模型的预训练过程包括:
3.根据权利要求2所述的中文语法纠错方法,其特征在于,s2.1中,所述对所述无错误的文本进行替换操作和插入操作得到损失文本包括:
4.根据权利要求1所述的中文语法纠错方法,其特征在于,s3中,得到复制概率和错误类型概率的计算公式为:
5.根据权利要求4所述的中文语法纠错方法,其特征在于,s3中,所述返回错误类型概率的最大值的索引值,基于所述最大值的索引值确定复制分发向量包括:
6.根...
【专利技术属性】
技术研发人员:康占英,黄惟,王青,肖峰,徐伯辰,刘优,彭卓,汤达夫,李芳芳,
申请(专利权)人:长沙市智为信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。