一种修正文本的方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:31229924 阅读:18 留言:0更新日期:2021-12-08 09:59
本申请提供一种修正文本的方法、装置、计算机设备及存储介质,可以应用于云计算领域或人工智能领域,用于解决修正文本的准确性较低的问题。该方法至少包括:采用已训练的修正模型,基于所述输入文本序列包含的各个输入文本位置上的输入子文本,分别匹配所述输入文本序列与预设的候选子文本集合中的各个候选子文本,获得针对所述各个输出文本位置的第一匹配结果;基于所述各个输入文本位置中的指定输入文本位置上的输入子文本,分别匹配所述输入文本序列与所述各个候选子文本,获得针对所述各个输出文本位置的第二匹配结果;基于获得的各个第一匹配结果和各个第二匹配结果,确定所述各个输出文本位置上的输出子文本,获得已修正的输出文本序列。的输出文本序列。的输出文本序列。

【技术实现步骤摘要】
一种修正文本的方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种修正文本的方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着科技的不断发展,越来越多的设备可以执行智能化的任务。例如,设备可以将语句中的错误文本修正为正确文本。
[0003]在修正文本的过程中,可能由于缺少先验知识等原因,容易出现将语句中错误文本删除,或者,将语句中的错误文本修正为与正确文本相似的其他文本等情况。然而,对于像中文这种文本含义非常丰富的语言来说,即使是相似文本,也无法准确表达语句的原本含义。可见,修正文本的过程准确性较低。

技术实现思路

[0004]本申请实施例提供一种修正文本的方法、装置、计算机设备及存储介质,用于解决修正文本的准确性较低的问题。
[0005]第一方面,提供一种修正文本的方法,包括:
[0006]获得待修正的输入文本序列;
[0007]采用已训练的修正模型,基于所述输入文本序列包含的各个输入文本位置上的输入子文本,针对各个输出文本位置,分别匹配所述输入文本序列与预设的候选子文本集合中的各个候选子文本,获得针对所述各个输出文本位置的第一匹配结果,其中,所述各个输出文本位置,与所述输入文本序列包含的各个输入文本位置一一对应;
[0008]基于所述各个输入文本位置中的指定输入文本位置上的输入子文本,针对所述各个输出文本位置,分别匹配所述输入文本序列与所述各个候选子文本,获得针对所述各个输出文本位置的第二匹配结果,其中,所述指定输入文本位置是在所述各个输入文本位置中,针对所述各个输出文本位置分别指定的输入文本位置;
[0009]基于获得的各个第一匹配结果和各个第二匹配结果,确定所述各个输出文本位置上的输出子文本,获得所述输入文本序列对应的已修正的输出文本序列。
[0010]第二方面,提供一种修正文本的装置,包括:
[0011]获取模块:用于获得待修正的输入文本序列;
[0012]处理模块:用于采用已训练的修正模型,基于所述输入文本序列包含的各个输入文本位置上的输入子文本,针对各个输出文本位置,分别匹配所述输入文本序列与预设的候选子文本集合中的各个候选子文本,获得针对所述各个输出文本位置的第一匹配结果,其中,所述各个输出文本位置,与所述输入文本序列包含的各个输入文本位置一一对应;
[0013]所述处理模块还用于:基于所述各个输入文本位置中的指定输入文本位置上的输入子文本,针对所述各个输出文本位置,分别匹配所述输入文本序列与所述各个候选子文本,获得针对所述各个输出文本位置的第二匹配结果,其中,所述指定输入文本位置是在所
述各个输入文本位置中,针对所述各个输出文本位置分别指定的输入文本位置;
[0014]所述处理模块还用于:基于获得的各个第一匹配结果和各个第二匹配结果,确定所述各个输出文本位置上的输出子文本,获得所述输入文本序列对应的已修正的输出文本序列。
[0015]可选的,所述获取模块具体用于:
[0016]获得待修正的输入文本,提取所述输入文本包含的各个输入子文本;
[0017]按照所述各个输入子文本在所述输入文本中的衔接顺序,依次排列所述各个输入子文本,获得所述输入文本序列,其中,所述输入文本序列包含多个输入文本位置,且每个输入文本位置对应一输入子文本。
[0018]可选的,所述已训练的修正模型包括已训练的无监督修正子模型和已训练的有监督修正子模型;则所述第一匹配结果是采用所述已训练的无监督修正子模型获得的,所述第二匹配结果是采用所述已训练的有监督修正子模型获得的。
[0019]可选的,所述处理模块具体用于:
[0020]针对所述各个输出文本位置,分别执行以下操作:
[0021]采用所述已训练的无监督修正子模型,针对各个输出文本位置中的一输出文本位置,基于所述各个输入子文本的子文本特征,获得所述输入文本序列的第一序列特征向量;
[0022]匹配所述输入文本序列的第一序列特征向量,与预存的所述各个候选子文本的候选特征向量,针对所述一输出文本位置,获得所述输入文本序列与所述各个候选子文本的第一匹配概率;
[0023]将获得的各个第一匹配概率,作为针对所述一输出文本位置的第一匹配结果;
[0024]所述处理模块具体用于:
[0025]针对所述各个输出文本位置,分别执行以下步骤:
[0026]采用所述已训练的有监督修正子模型,针对各个输出文本位置中的一输出文本位置,基于所述指定输入文本位置上的输入子文本的子文本特征,获得所述输入文本序列的第二序列特征向量;
[0027]匹配所述输入文本序列的第二序列特征向量,与预存的所述各个候选子文本的候选特征向量,针对所述一输出文本位置,获得所述输入文本序列与所述各个候选子文本的第二匹配概率;
[0028]将获得的各个第二匹配概率,作为针对所述一输出文本位置的第二匹配结果。
[0029]可选的,所述已训练的有监督修正子模型包括已训练的编码子模型和已训练的解码子模型,所述处理模块具体用于:
[0030]采用所述已训练的编码子模型,基于所述指定输入文本位置上的输入子文本的子文本特征,获得所述输入文本序列的编码序列特征向量;
[0031]采用所述已训练的解码子模型,基于所述各个输入文本位置中,预设输入文本位置上的输入子文本的子文本特征,获得所述输入文本序列的解码序列特征向量,其中,所述预设输入文本位置是在所述各个输入文本位置中,针对所述一输出文本位置预先设定的至少一个输入文本位置;
[0032]基于获得的编码序列特征向量和解码序列特征向量,确定所述第二序列特征向量;
[0033]所述处理模块具体用于:
[0034]采用所述已训练的解码子模型,对所述第二序列特征向量进行解码处理,获得所述第二匹配概率。
[0035]可选的,所述已训练的编码子模型和所述已训练的解码子模型中,相同名称的模型参数之间共享模型参数的取值。
[0036]可选的,所述处理模块具体用于:
[0037]基于所述已训练的修正模型的第三模型参数,对获得的编码序列特征向量和解码序列特征向量进行线性运算,获得所述编码序列特征向量的编码权重参数;
[0038]基于获得的编码权重参数,以及预设的权重关系,确定所述解码序列特征向量的解码权重参数;
[0039]基于获得的编码权重参数和解码权重参数,对所述编码序列特征向量和所述解码序列特征向量进行加权求和处理,获得所述第二序列特征向量。
[0040]可选的,所述第三模型参数包括编码序列特征向量的连接权重、解码序列特征向量的连接权重和偏置向量。
[0041]可选的,所述处理模块具体用于:
[0042]针对所述各个输出文本位置,分别执行以下步骤:
[0043]基于所述已训练的修正模型的第一模型参数和第二模型参数,对针对所述各个输出文本位置中一输出文本位置的第一匹本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种修正文本的方法,其特征在于,包括:获得待修正的输入文本序列;采用已训练的修正模型,基于所述输入文本序列包含的各个输入文本位置上的输入子文本,针对各个输出文本位置,分别匹配所述输入文本序列与预设的候选子文本集合中的各个候选子文本,获得针对所述各个输出文本位置的第一匹配结果,其中,所述各个输出文本位置,与所述输入文本序列包含的各个输入文本位置一一对应;基于所述各个输入文本位置中的指定输入文本位置上的输入子文本,针对所述各个输出文本位置,分别匹配所述输入文本序列与所述各个候选子文本,获得针对所述各个输出文本位置的第二匹配结果,其中,所述指定输入文本位置是在所述各个输入文本位置中,针对所述各个输出文本位置分别指定的输入文本位置;基于获得的各个第一匹配结果和各个第二匹配结果,确定所述各个输出文本位置上的输出子文本,获得所述输入文本序列对应的已修正的输出文本序列。2.根据权利要求1所述的方法,其特征在于,获得待修正的输入文本序列,包括:获得待修正的输入文本,提取所述输入文本包含的各个输入子文本;按照所述各个输入子文本在所述输入文本中的衔接顺序,依次排列所述各个输入子文本,获得所述输入文本序列,其中,所述输入文本序列包含多个输入文本位置,且每个输入文本位置对应一输入子文本。3.根据权利要求1所述的方法,其特征在于,所述已训练的修正模型包括已训练的无监督修正子模型和已训练的有监督修正子模型;则所述第一匹配结果是采用所述已训练的无监督修正子模型获得的,所述第二匹配结果是采用所述已训练的有监督修正子模型获得的。4.根据权利要求3所述的方法,其特征在于,基于所述输入文本序列包含的各个输入文本位置上的输入子文本,针对各个输出文本位置,分别匹配所述输入文本序列与预设的候选子文本集合中的各个候选子文本,获得针对所述各个输出文本位置的第一匹配结果,包括:针对所述各个输出文本位置,分别执行以下操作:采用所述已训练的无监督修正子模型,针对各个输出文本位置中的一输出文本位置,基于所述各个输入子文本的子文本特征,获得所述输入文本序列的第一序列特征向量;匹配所述输入文本序列的第一序列特征向量,与预存的所述各个候选子文本的候选特征向量,针对所述一输出文本位置,获得所述输入文本序列与所述各个候选子文本的第一匹配概率;将获得的各个第一匹配概率,作为针对所述一输出文本位置的第一匹配结果;基于所述各个输入文本位置中的指定输入文本位置上的输入子文本,针对所述各个输出文本位置,分别匹配所述输入文本序列与所述各个候选子文本,获得针对所述各个输出文本位置的第二匹配结果,包括:针对所述各个输出文本位置,分别执行以下步骤:采用所述已训练的有监督修正子模型,针对各个输出文本位置中的一输出文本位置,基于所述指定输入文本位置上的输入子文本的子文本特征,获得所述输入文本序列的第二序列特征向量;
匹配所述输入文本序列的第二序列特征向量,与预存的所述各个候选子文本的候选特征向量,针对所述一输出文本位置,获得所述输入文本序列与所述各个候选子文本的第二匹配概率;将获得的各个第二匹配概率,作为针对所述一输出文本位置的第二匹配结果。5.根据权利要求4所述的方法,其特征在于,所述已训练的有监督修正子模型包括已训练的编码子模型和已训练的解码子模型;则采用所述已训练的有监督修正子模型,针对各个输出文本位置中的一输出文本位置,基于所述指定输入文本位置上的输入子文本的子文本特征,获得所述输入文本序列的第二序列特征向量,包括:采用所述已训练的编码子模型,基于所述指定输入文本位置上的输入子文本的子文本特征,获得所述输入文本序列的编码序列特征向量;采用所述已训练的解码子模型,基于所述各个输入文本位置中,预设输入文本位置上的输入子文本的子文本特征,获得所述输入文本序列的解码序列特征向量,其中,所述预设输入文本位置是在所述各个输入文本位置中,针对所述一输出文本位置预先设定的至少一个输入文本位置;基于获得的编码序列特征向量和解码序列特征向量,确定所述第二序列特征向量;匹配所述输入文本序列的第二序列特征向量,与预存的所述各个候选子文本的候选特征向量,针对所述一输出文本位置,获得所述输入文本序列与所述各个候选子文本的第二匹配概率,包括:采用所述已训练的解码子模型,对所述第二序列特征向量进行解码处理,获得所述第二匹配概率。6.根据权利要求5所述的方法,其特征在于,所述已训练的编码子模型和所述已训练的解码子模型中,相同名称的模型参数之间共享模型参数的取值。7.根据权利要求5所述的方法,其特征在于,基于获得的编码序列特征向量和解码序列特征向量,确定所述第二序列特征向量,包括:基于所述已训练的修正模型的第三模型参数,对...

【专利技术属性】
技术研发人员:杨韬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1