【技术实现步骤摘要】
文本纠错方法、装置、终端设备及计算机存储介质
本申请属于人工智能
,尤其涉及一种文本纠错方法、装置、终端设备及计算机存储介质。
技术介绍
在当前的文本处理领域中,通常使用编码器-解码器模型实现文本纠错、文本翻译、文档摘取、问答系统等文本处理功能。在编码器-解码器模型中,设置有编码器和解码器。在进行文本纠错时,用户可以将需要纠错的文本输入编码器-解码器模型的编码器中,编码器将用户输入的文本转化成语义向量,然后编码器将语义向量传递至编码器-解码器模型的解码器中,由解码器对语义向量进行解码,得到纠错后的文本并输出给用户。但是,在当前的编码器-解码器模型中,模型的解码过程是不可控的,容易产生误判的情况,可能会将部分正确词语误判为错误词语进行纠错,或者将部分错误词语误判为正确词语不进行纠错。
技术实现思路
本申请实施例提供了一种文本纠错方法、装置、终端设备及计算机存储介质,可以解决当前的编码器-解码器模型的解码过程是不可控,容易产生误判情况的问题。本申请实施例的第一方面提供了一种文本纠错方法,包括:终端设备对输入文本进行词向量转换,得到所述输入文本对应的词向量序列,其中,所述词向量序列包括所述输入文本中各个词对应的输入词向量;所述终端设备将所述词向量序列输入编码器-解码器模型的编码器中,得到语义向量;所述终端设备将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签;所述终端设备将所述词向量序列、所述语义向量以及所述各个输入词向量对 ...
【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n终端设备对输入文本进行词向量转换,得到所述输入文本对应的词向量序列,其中,所述词向量序列包括所述输入文本中各个词对应的输入词向量;/n所述终端设备将所述词向量序列输入编码器-解码器模型的编码器中,得到语义向量;/n所述终端设备将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签;/n所述终端设备将所述词向量序列、所述语义向量以及所述各个输入词向量对应的纠错标签输入所述编码器-解码器模型的解码器中,得到纠错后的文本。/n
【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
终端设备对输入文本进行词向量转换,得到所述输入文本对应的词向量序列,其中,所述词向量序列包括所述输入文本中各个词对应的输入词向量;
所述终端设备将所述词向量序列输入编码器-解码器模型的编码器中,得到语义向量;
所述终端设备将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签;
所述终端设备将所述词向量序列、所述语义向量以及所述各个输入词向量对应的纠错标签输入所述编码器-解码器模型的解码器中,得到纠错后的文本。
2.如权利要求1所述的一种文本纠错方法,其特征在于,所述终端设备将所述词向量序列、所述语义向量以及所述各个输入词向量对应的纠错标签输入所述编码器-解码器模型的解码器中,得到纠错后的文本包括:
所述终端设备将所述词向量序列中的输入词向量依次输入至所述编码器-解码器模型的解码器中;
在每一次将所述输入词向量输入所述解码器后,所述终端设备根据所述输入词向量以及所述输入词向量对应的第二隐藏层向量,计算所述输入词向量对应的注意力向量以及下一个输入词向量对应的第二隐藏层向量,其中,所述第二隐藏层向量为所述解码器的隐藏层向量,所述语义向量为第一个输入词向量对应的第二隐藏层向量;
若所述输入词向量对应的纠错标签为第一标签,则所述终端设备控制所述解码器将所述输入词向量对应的词作为所述输入词向量对应的解码词,其中,所述纠错标签包括第一标签和第二标签;
若所述输入词向量对应的纠错标签为第二标签,则所述终端设备根据所述输入词向量对应的纠错标签、所述输入词向量对应的注意力向量以及所述输入词向量对应的第二隐藏层向量构建第一向量;
所述终端设备将所述第一向量与预设词典中各个词对应的第二向量进行相似度计算,得到所述预设词典中各个词对应的第一相似度;
所述终端设备根据所述第一相似度确定所述输入词向量对应的解码词;
所述终端设备根据各个输入词向量对应的解码词确定所述纠错后的文本。
3.如权利要求2所述的一种文本纠错方法,其特征在于,所述终端设备根据所述第一相似度确定所述输入词向量对应的解码词包括:
所述终端设备将所述预设词典中第一相似度最高的词作为所述输入词向量对应的解码词。
4.如权利要求2所述的一种文本纠错方法,其特征在于,所述输入词向量包括拼音词向量和字形词向量;
相应的,所述终端设备根据所述第一相似度确定所述输入词向量对应的解码词包括:
所述终端设备将所述输入词向量中的拼音词向量与所述预设词典中各个词对应的拼音词向量进行相似度计算,得到所述预设词典中各个词对应的拼音相似度;
所述终端设备将所述输入词向量中的字形词向量与所述预设词典中各个词对应的字形词向量进行相似度计算,得到所述预设词典中各个词对应的字形相似度;
所述终端设备将所述输入词向量对应的词与所述预设词典中各个词进行编辑距离计算,得到所述预设词典中各个词对应的编辑距离;
所述终端设备分别对所述预设词典中各个词对应的第一相似度、拼音相似度、字形相似度以及编辑距离进行加权求和,得到所述预设词典中各个词对应的目标相似度;
所述终端设备将所述预设词典中目标相似度最高的词作为所述输入词向量对应的解码词。
5.如权利要求1所述的一种文本纠错方法,其特征在于,所述纠错判定模型包括双向编码表征模型和二分类器;
相应的,所述终端设备将所述词向量序列输入纠错判定模型中,得到各个输入词向量对应的纠错标签包括:
所述终端设备将所述词向量序列中各个输入词向量依次输入纠错判定模型中,得到各个输入词向量对应的第一输出值;
所述终端设备分别将各个输入词向量对应的第一输出值输入所述二分类器中,得到所述各个输入词向量对应的纠错标签。
6.一种文本纠错装置,其特征在于,包括:
嵌入模块,用于对输入文本进行词向量转换,得到所述输入文本对应的词向...
【专利技术属性】
技术研发人员:姚林霞,孟函可,祝官文,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。