文本纠错方法、装置、终端设备及计算机存储介质制造方法及图纸

技术编号:29791045 阅读:15 留言:0更新日期:2021-08-24 18:10
本申请适用于人工智能技术领域,提供了一种文本纠错方法、装置、终端设备及计算机存储介质。在本申请的文本纠错方法中,编码器‑解码器模型中的解码器在进行解码之前,需要先使用纠错判定模型对各个输入词向量进行标签分类,得到各个输入词向量的纠错标签。上述纠错标签用于指示对应的词是否需要进行纠错。终端设备在得到输入文本中各个输入词向量对应的纠错标签之后,将各个输入词向量对应的纠错标签输入至上述解码器中,使解码器可以根据各个输入词向量对应的纠错标签进行针对性的解码,调控解码过程,从而减少解码器的误判情况,提高文本纠错的准确性,解决了当前的编码器‑解码器模型的解码过程不可控,容易产生误判情况的问题。

【技术实现步骤摘要】
文本纠错方法、装置、终端设备及计算机存储介质
本申请属于人工智能
,尤其涉及一种文本纠错方法、装置、终端设备及计算机存储介质。
技术介绍
在当前的文本处理领域中,通常使用编码器-解码器模型实现文本纠错、文本翻译、文档摘取、问答系统等文本处理功能。在编码器-解码器模型中,设置有编码器和解码器。在进行文本纠错时,用户可以将需要纠错的文本输入编码器-解码器模型的编码器中,编码器将用户输入的文本转化成语义向量,然后编码器将语义向量传递至编码器-解码器模型的解码器中,由解码器对语义向量进行解码,得到纠错后的文本并输出给用户。但是,在当前的编码器-解码器模型中,模型的解码过程是不可控的,容易产生误判的情况,可能会将部分正确词语误判为错误词语进行纠错,或者将部分错误词语误判为正确词语不进行纠错。
技术实现思路
本申请实施例提供了一种文本纠错方法、装置、终端设备及计算机存储介质,可以解决当前的编码器-解码器模型的解码过程是不可控,容易产生误判情况的问题。本申请实施例的第一方面提供了一种文本纠错方法,包括:终端设备对输入文本进行词向量转换,得到所述输入文本对应的词向量序列,其中,所述词向量序列包括所述输入文本中各个词对应的输入词向量;所述终端设备将所述词向量序列输入编码器-解码器模型的编码器中,得到语义向量;所述终端设备将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签;所述终端设备将所述词向量序列、所述语义向量以及所述各个输入词向量对应的纠错标签输入所述编码器-解码器模型的解码器中,得到纠错后的文本。需要说明的是,在解码器解码之前,终端设备先将词向量序列输入纠错判定模型进行纠错判定,得到输入文本中各个词对应的纠错标签。纠错标签用于指示输入文本中的各个词是否需要进行纠错。在解码的过程中,解码器可以根据输入文本中各个词的纠错标签进行针对性解码,调控解码过程,从而减少解码器的误判情况,提高文本纠错的准确性。在第一方面的一种可能的实现方式中,所述终端设备将所述词向量序列、所述语义向量以及所述各个输入词向量对应的纠错标签输入所述编码器-解码器模型的解码器中,得到纠错后的文本包括:所述终端设备将所述词向量序列中的输入词向量依次输入至所述编码器-解码器模型的解码器中;在每一次将所述输入词向量输入所述解码器后,所述终端设备根据所述输入词向量以及所述输入词向量对应的第二隐藏层向量,计算所述输入词向量对应的注意力向量以及下一个输入词向量对应的第二隐藏层向量,其中,所述第二隐藏层向量为所述解码器的隐藏层向量,所述语义向量为第一个输入词向量对应的第二隐藏层向量;若所述输入词向量对应的纠错标签为第一标签,则所述终端设备控制所述解码器将所述输入词向量对应的词作为所述输入词向量对应的解码词,其中,所述纠错标签包括第一标签和第二标签;若所述输入词向量对应的纠错标签为第二标签,则所述终端设备根据所述输入词向量对应的纠错标签、所述输入词向量对应的注意力向量以及所述输入词向量对应的第二隐藏层向量构建第一向量;所述终端设备将所述第一向量与预设词典中各个词对应的第二向量进行相似度计算,得到所述预设词典中各个词对应的第一相似度;所述终端设备根据所述第一相似度确定所述输入词向量对应的解码词;所述终端设备根据各个输入词向量对应的解码词确定所述纠错后的文本。需要说明的是,当解码器使用相似度比对的方式进行解码时,可以降低解码的计算复杂度,减少对系统性能的损耗,降低处理时长。在第一方面的一种可能的实现方式中,所述终端设备根据所述第一相似度确定所述输入词向量对应的解码词包括:所述终端设备将所述预设词典中第一相似度最高的词作为所述输入词向量对应的解码词。需要说明的是,终端设备可以直接将预设词典中第一相似度最高的词作为该输入词向量对应的解码词,降低解码计算的复杂度。在第一方面的另一种可能的实现方式中,所述输入词向量包括拼音词向量和字形词向量;相应的,所述终端设备根据所述第一相似度确定所述输入词向量对应的解码词包括:所述终端设备将所述输入词向量中的拼音词向量与所述预设词典中各个词对应的拼音词向量进行相似度计算,得到所述预设词典中各个词对应的拼音相似度;所述终端设备将所述输入词向量中的字形词向量与所述预设词典中各个词对应的字形词向量进行相似度计算,得到所述预设词典中各个词对应的字形相似度;所述终端设备将所述输入词向量对应的词与所述预设词典中各个词进行编辑距离计算,得到所述预设词典中各个词对应的编辑距离;所述终端设备分别对所述预设词典中各个词对应的第一相似度、拼音相似度、字形相似度以及编辑距离进行加权求和,得到所述预设词典中各个词对应的目标相似度;所述终端设备将所述预设词典中目标相似度最高的词作为所述输入词向量对应的解码词。需要说明的是,当终端设备需要提高解码的准确性时,可以结合第一相似度、拼音相似度、字形相似度、编辑距离等领域知识进行综合评估,得到目标相似度。然后,终端设备再将预设词典中目标相似度最高的词作为上述输入词向量对应的解码词,从而提高解码器解码的准确性。在第一方面的一种可能的实现方式中,所述纠错判定模型包括双向编码表征模型和二分类器;相应的,所述终端设备将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签包括:所述终端设备将所述词向量序列中各个输入词向量依次输入纠错判定模型中,得到各个输入词向量对应的第一输出值;所述终端设备分别将各个输入词向量对应的第一输出值输入所述二分类器中,得到所述各个输入词向量对应的纠错标签。需要说明的是,双向编码表征模型具有准确性高、使用方便、调节速度快等优点,使用双向编码表征模型和二分类器可以降低纠错判定模型的构建难度和训练难度。本申请实施例的第二方面提供了一种文本纠错装置,包括:嵌入模块,用于对输入文本进行词向量转换,得到所述输入文本对应的词向量序列,其中,所述词向量序列包括所述输入文本中各个词对应的输入词向量;语义模块,用于将所述词向量序列输入编码器-解码器模型的编码器中,得到语义向量;标签模块,用于将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签;纠错模块,用于将所述词向量序列、所述语义向量以及所述各个输入词向量对应的纠错标签输入所述编码器-解码器模型的解码器中,得到纠错后的文本。在第二方面的一种可能的实现方式中,所述纠错模块包括:向量输入子模块,用于将所述词向量序列中的输入词向量依次输入至所述编码器-解码器模型的解码器中;隐藏更新子模块,用于在每一次将所述输入词向量输入所述解码器后,根据所述输入词向量以及所述输入词向量对应的第二隐藏层向量,计算所述输入词向量对应的注意力向量以及下一个输入词向量对应的第二隐藏层向量,其中,所述第二隐藏层向量为所述解码器的隐藏层向量,所本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n终端设备对输入文本进行词向量转换,得到所述输入文本对应的词向量序列,其中,所述词向量序列包括所述输入文本中各个词对应的输入词向量;/n所述终端设备将所述词向量序列输入编码器-解码器模型的编码器中,得到语义向量;/n所述终端设备将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签;/n所述终端设备将所述词向量序列、所述语义向量以及所述各个输入词向量对应的纠错标签输入所述编码器-解码器模型的解码器中,得到纠错后的文本。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
终端设备对输入文本进行词向量转换,得到所述输入文本对应的词向量序列,其中,所述词向量序列包括所述输入文本中各个词对应的输入词向量;
所述终端设备将所述词向量序列输入编码器-解码器模型的编码器中,得到语义向量;
所述终端设备将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签;
所述终端设备将所述词向量序列、所述语义向量以及所述各个输入词向量对应的纠错标签输入所述编码器-解码器模型的解码器中,得到纠错后的文本。


2.如权利要求1所述的一种文本纠错方法,其特征在于,所述终端设备将所述词向量序列、所述语义向量以及所述各个输入词向量对应的纠错标签输入所述编码器-解码器模型的解码器中,得到纠错后的文本包括:
所述终端设备将所述词向量序列中的输入词向量依次输入至所述编码器-解码器模型的解码器中;
在每一次将所述输入词向量输入所述解码器后,所述终端设备根据所述输入词向量以及所述输入词向量对应的第二隐藏层向量,计算所述输入词向量对应的注意力向量以及下一个输入词向量对应的第二隐藏层向量,其中,所述第二隐藏层向量为所述解码器的隐藏层向量,所述语义向量为第一个输入词向量对应的第二隐藏层向量;
若所述输入词向量对应的纠错标签为第一标签,则所述终端设备控制所述解码器将所述输入词向量对应的词作为所述输入词向量对应的解码词,其中,所述纠错标签包括第一标签和第二标签;
若所述输入词向量对应的纠错标签为第二标签,则所述终端设备根据所述输入词向量对应的纠错标签、所述输入词向量对应的注意力向量以及所述输入词向量对应的第二隐藏层向量构建第一向量;
所述终端设备将所述第一向量与预设词典中各个词对应的第二向量进行相似度计算,得到所述预设词典中各个词对应的第一相似度;
所述终端设备根据所述第一相似度确定所述输入词向量对应的解码词;
所述终端设备根据各个输入词向量对应的解码词确定所述纠错后的文本。


3.如权利要求2所述的一种文本纠错方法,其特征在于,所述终端设备根据所述第一相似度确定所述输入词向量对应的解码词包括:
所述终端设备将所述预设词典中第一相似度最高的词作为所述输入词向量对应的解码词。


4.如权利要求2所述的一种文本纠错方法,其特征在于,所述输入词向量包括拼音词向量和字形词向量;
相应的,所述终端设备根据所述第一相似度确定所述输入词向量对应的解码词包括:
所述终端设备将所述输入词向量中的拼音词向量与所述预设词典中各个词对应的拼音词向量进行相似度计算,得到所述预设词典中各个词对应的拼音相似度;
所述终端设备将所述输入词向量中的字形词向量与所述预设词典中各个词对应的字形词向量进行相似度计算,得到所述预设词典中各个词对应的字形相似度;
所述终端设备将所述输入词向量对应的词与所述预设词典中各个词进行编辑距离计算,得到所述预设词典中各个词对应的编辑距离;
所述终端设备分别对所述预设词典中各个词对应的第一相似度、拼音相似度、字形相似度以及编辑距离进行加权求和,得到所述预设词典中各个词对应的目标相似度;
所述终端设备将所述预设词典中目标相似度最高的词作为所述输入词向量对应的解码词。


5.如权利要求1所述的一种文本纠错方法,其特征在于,所述纠错判定模型包括双向编码表征模型和二分类器;
相应的,所述终端设备将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签包括:
所述终端设备将所述词向量序列中各个输入词向量依次输入纠错判定模型中,得到各个输入词向量对应的第一输出值;
所述终端设备分别将各个输入词向量对应的第一输出值输入所述二分类器中,得到所述各个输入词向量对应的纠错标签。


6.一种文本纠错装置,其特征在于,包括:
嵌入模块,用于对输入文本进行词向量转换,得到所述输入文本对应的词向...

【专利技术属性】
技术研发人员:姚林霞孟函可祝官文
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1