一种文本纠正方法及装置制造方法及图纸

技术编号:20485336 阅读:19 留言:0更新日期:2019-03-02 19:09
本申请实施例提供了一种文本纠正方法及装置。所述方法包括:获取输入的待纠正的当前文本;将当前文本输入神经网络,神经网络的编码层根据预先训练好的第一网络参数确定当前文本的语义向量和权重,并将语义向量和权重输入解码层;其中,权重用于表示当前文本中各个子文本存在错误的可能性;神经网络的解码层,根据预先训练好的第二网络参数以及语义向量和权重,确定当前文本对应的纠正后文本;获取解码层确定的当前文本对应的纠正后文本。应用本申请实施例提供的方案,能够提高文本纠正时的处理效率。

【技术实现步骤摘要】
一种文本纠正方法及装置
本申请涉及文本处理
,特别是涉及一种文本纠正方法及装置。
技术介绍
为了提升用户使用输入法时的便捷性,在输入法客户端中常常设置有对用户已经输入的文本进行纠正的功能。即基于用户输入的当前文本,检测当前文本中的错误,并输出针对错误纠正后的文本。相关技术中,针对输入文本进行纠错的技术主要是基于预设规则。该预设规则可以是句子中主谓宾的搭配规则。例如,在英语语言中,可以对输入文本中的单词做词性标注,依据预设规则和标注的单词的词性,判断输入文本中存在的语法错误,进而对输入文本做语法纠正。上述文本纠正方法能够针对部分语法错误的类型进行纠正。但是实际中用户输入时的错误类型非常多,除了语法错误,还存在拼写错误、时态错误等。在这种情况下,可以针对每种错误类型预先建立对应的预设规则。在纠错时,需要将输入文本分别与每种预设规则一一进行匹配,确定输入文本中存在的错误。当预设规则很多时,这种文本纠正方法的处理效率就很低。
技术实现思路
本申请实施例的目的在于提供了一种文本纠正方法及装置,以提高文本纠正时的处理效率。具体的技术方案如下。第一方面,本申请实施例提供了一种文本纠正方法,该方法包括:获取输入的待纠正的当前文本;将所述当前文本输入神经网络;其中所述神经网络包括编码层和解码层;所述编码层,根据预先训练好的第一网络参数确定所述当前文本的语义向量和权重,并将所述语义向量和权重输入所述解码层;其中,所述权重用于表示所述当前文本中各个子文本存在错误的可能性;所述解码层,根据预先训练好的第二网络参数以及所述语义向量和权重,确定所述当前文本对应的纠正后文本;获取解码层确定的所述当前文本对应的纠正后文本。可选的,所述语义向量包括所述当前文本的各个子文本的子语义向量,所述权重包括所述当前文本的各个子文本的子权重;所述根据预先训练好的第二网络参数以及所述语义向量和权重,确定所述当前文本对应的纠正后文本的步骤,包括:采用以下方式确定当前文本对应的纠正后文本的第N个纠正子文本:获取第N-1个纠正子文本;其中,所述N为正整数,当所述N大于1时,所述第N-1个纠正子文本为:根据第N-1个子语义向量和第N-1个子权重以及获取的第N-2个纠正子文本从预设的文本对象库中确定;所述文本对象库包括各个文本对象;根据第N个子语义向量和第N个子权重以及所述第N-1个纠正子文本,从所述文本对象库中确定第N个纠正子文本。可选的,当所述N为1时,所述获取第N-1个纠正子文本的步骤,包括:将预设文本作为第N-1个纠正子文本,或者将从预设文本库中选择的文本作为第N-1个纠正子文本。可选的,所述根据第N个子语义向量和第N个子权重以及所述第N-1个纠正子文本,从所述文本对象库中确定第N个纠正子文本的步骤,包括:根据第N个子语义向量和第N个子权重以及第N-1个纠正子文本,确定所述文本对象库中各个文本对象的评分;根据各个评分,从所述文本对象库的各个文本对象中确定第N个纠正子文本。可选的,采用以下训练方式得到所述神经网络:获取平行语料;其中,所述平行语料包括样本文本和对应的标准纠正后文本;将所述样本文本输入所述神经网络的编码层;所述编码层,根据第一网络参数确定样本文本的样本语义向量和样本权重,并将所述样本语义向量和样本权重输入解码层;其中,所述样本权重用于表示所述样本文本中各个样本子文本存在错误的可能性;所述解码层,根据第二网络参数以及所述样本语义向量和样本权重,确定样本文本对应的样本纠正后文本;比较所述样本纠正后文本与所述标准纠正后文本之间的差异;当所述差异大于预设阈值时,根据所述差异修改所述第一网络参数和所述第二网络参数,返回执行所述将所述样本文本输入所述神经网络的编码层的步骤;当所述差异小于预设阈值时,确定所述神经网络训练完成。可选的,所述编码层采用双向金字塔形式的循环神经网络,和/或,所述解码层采用双向循环神经网络。第二方面,本申请实施例提供了一种文本纠正装置,所述装置包括:第一获取模块,用于获取输入的待纠正的当前文本;第一输入模块,用于将所述当前文本输入神经网络;其中所述神经网络包括编码层和解码层;所述编码层,根据预先训练好的第一网络参数确定所述当前文本的语义向量和权重,并将所述语义向量和权重输入所述解码层;其中,所述权重用于表示所述当前文本中各个子文本存在错误的可能性;所述解码层,根据预先训练好的第二网络参数以及所述语义向量和权重,确定所述当前文本对应的纠正后文本;第二获取模块,用于获取解码层确定的所述当前文本对应的纠正后文本。可选的,所述语义向量包括所述当前文本的各个子文本的子语义向量,所述权重包括所述当前文本的各个子文本的子权重;所述解码层,根据预先训练好的第二网络参数以及所述语义向量和权重,确定所述当前文本对应的纠正后文本时,包括:采用以下方式确定所述当前文本对应的纠正后文本的第N个纠正子文本:获取第N-1个纠正子文本;其中,所述N为正整数,当所述N大于1时,所述第N-1个纠正子文本为:根据第N-1个子语义向量和第N-1个子权重以及获取的第N-2个纠正子文本从预设的文本对象库中确定;所述文本对象库包括各个文本对象;根据第N个子语义向量和第N个子权重以及所述第N-1个纠正子文本,从所述文本对象库中确定第N个纠正子文本。可选的,所述解码层,获取第N-1个纠正子文本时,包括:当所述N为1时,将预设文本作为第N-1个纠正子文本,或者将从预设文本库中选择的文本作为第N-1个纠正子文本。可选的,所述解码层,根据第N个子语义向量和第N个子权重以及所述第N-1个纠正子文本,从所述文本对象库中确定第N个纠正子文本时,包括:根据第N个子语义向量和第N个子权重以及第N-1个纠正子文本,确定所述文本对象库中各个文本对象的评分;根据各个评分,从所述文本对象库的各个文本对象中确定第N个纠正子文本。可选的,所述装置还包括:训练模块,用于采用以下训练操作得到所述神经网络:获取平行语料;其中,所述平行语料包括样本文本和对应的标准纠正后文本;将所述样本文本输入所述神经网络的编码层;所述编码层,根据第一网络参数确定样本文本的样本语义向量和样本权重,并将所述样本语义向量和样本权重输入解码层;其中,所述样本权重用于表示所述样本文本中各个样本子文本存在错误的可能性;所述解码层,根据第二网络参数以及所述样本语义向量和样本权重,确定样本文本对应的样本纠正后文本;比较所述样本纠正后文本与所述标准纠正后文本之间的差异;当所述差异大于预设阈值时,根据所述差异修改所述第一网络参数和所述第二网络参数,返回执行所述将所述样本文本输入所述神经网络的编码层的步骤;当所述差异小于预设阈值时,确定所述神经网络训练完成。可选的,所述编码层采用双向金字塔形式的循环神经网络,和/或,所述解码层采用双向循环神经网络。第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面提供的文本纠正方法。第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的文本文档来自技高网...

【技术保护点】
1.一种文本纠正方法,其特征在于,所述方法包括:获取输入的待纠正的当前文本;将所述当前文本输入神经网络;其中所述神经网络包括编码层和解码层;所述编码层,根据预先训练好的第一网络参数确定所述当前文本的语义向量和权重,并将所述语义向量和权重输入所述解码层;其中,所述权重用于表示所述当前文本中各个子文本存在错误的可能性;所述解码层,根据预先训练好的第二网络参数以及所述语义向量和权重,确定所述当前文本对应的纠正后文本;获取解码层确定的所述当前文本对应的纠正后文本。

【技术特征摘要】
1.一种文本纠正方法,其特征在于,所述方法包括:获取输入的待纠正的当前文本;将所述当前文本输入神经网络;其中所述神经网络包括编码层和解码层;所述编码层,根据预先训练好的第一网络参数确定所述当前文本的语义向量和权重,并将所述语义向量和权重输入所述解码层;其中,所述权重用于表示所述当前文本中各个子文本存在错误的可能性;所述解码层,根据预先训练好的第二网络参数以及所述语义向量和权重,确定所述当前文本对应的纠正后文本;获取解码层确定的所述当前文本对应的纠正后文本。2.根据权利要求1所述的方法,其特征在于,所述语义向量包括所述当前文本的各个子文本的子语义向量,所述权重包括所述当前文本的各个子文本的子权重;所述根据预先训练好的第二网络参数以及所述语义向量和权重,确定所述当前文本对应的纠正后文本的步骤,包括:采用以下方式确定当前文本对应的纠正后文本的第N个纠正子文本:获取第N-1个纠正子文本;其中,所述N为正整数,当所述N大于1时,所述第N-1个纠正子文本为:根据第N-1个子语义向量和第N-1个子权重以及获取的第N-2个纠正子文本从预设的文本对象库中确定;所述文本对象库包括各个文本对象;根据第N个子语义向量和第N个子权重以及所述第N-1个纠正子文本,从所述文本对象库中确定第N个纠正子文本。3.根据权利要求2所述的方法,其特征在于,当所述N为1时,所述获取第N-1个纠正子文本的步骤,包括:将预设文本作为第N-1个纠正子文本,或者将从预设文本库中选择的文本作为第N-1个纠正子文本。4.根据权利要求2所述的方法,其特征在于,所述根据第N个子语义向量和第N个子权重以及所述第N-1个纠正子文本,从所述文本对象库中确定第N个纠正子文本的步骤,包括:根据第N个子语义向量和第N个子权重以及第N-1个纠正子文本,确定所述文本对象库中各个文本对象的评分;根据各个评分,从所述文本对象库的各个文本对象中确定第N个纠正子文本。5.根据权利要求1所述的方法,其特征在于,采用以下训练方式得到所述神经网络:获取平行语料;其中,所述平行语料包括样本文本和对应的标准纠正后文本;将所述样本文本输入所述神经网络的编码层;所述编码层,根据第一网络参数确定样本文本的样本语义向量和样本权重,并将所述样本语义向量和样本权重输入解码层;其中,所述样本权重用于表示所述样本文本中各个样本子文本存在错误的可能性;所述解码层,根据第二网络参数以及所述样本语义向量和样本权重,确定样本文本对应的样本纠...

【专利技术属性】
技术研发人员:贾亚伟
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1