本公开公开了文本纠错处理方法、装置、电子设备和存储介质,涉及深度学习和自然语言处理等人工智能领域。具体实现方案为:获取原始文本,并对原始文本进行预处理获取训练文本;提取训练文本中每个字对应的多个特征向量,对多个特征向量进行处理获取输入向量;将输入向量输入文本纠错模型获取目标文本,根据目标文本和原始文本的差异,调整文本纠错模型的参数。由此,通过对原始文本进行预处理生成训练文本对文本纠错模型进行训练,提高训练文本的生成效率的同时使文本纠错模型能够针对不同错误类型进行正确处理。
【技术实现步骤摘要】
文本纠错处理方法、装置、电子设备和存储介质
本公开涉及计算机
,具体地,涉及深度学习和自然语言处理等人工智能领域,尤其涉及一种文本纠错处理方法、装置、电子设备和存储介质。
技术介绍
目前,拼写纠错的目标是对自然语言中的拼写错误进行纠正,其对于许多潜在的自然语言处理应用具有广泛地应用,例如搜索优化,机器翻译,词性标注等。相关技术中,中文拼写错误纠错方式一般以流水线的形式进行,首先进行错误识别接着候选生成,最后候选选择,这种方式的训练语料需要人工标注,数量往往较小,只能处理一一对应的错误类型,比如字词颠倒、字词补全等错误不能识别,从而纠错效率和效果都比较差。
技术实现思路
本公开提供了一种用于文本纠错处理方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种文本纠错处理方法,包括:获取原始文本,并对所述原始文本进行预处理获取训练文本;提取所述训练文本中每个字对应的多个特征向量,对所述多个特征向量进行处理获取输入向量;将所述输入向量输入文本纠错模型获取目标文本,根据所述目标文本和所述原始文本的差异,调整所述文本纠错模型的参数。根据本公开的另一方面,提供了一种文本纠错处理装置,包括:第一获取模块,用于获取原始文本;预处理模块,用于对所述原始文本进行预处理获取训练文本;提取模块,用于提取所述训练文本中每个字对应的多个特征向量;第二获取模块,用于对所述多个特征向量进行处理获取输入向量;处理模块,用于将所述输入向量输入文本纠错模型获取目标文本,根据所述目标文本和所述原始文本的差异,调整所述文本纠错模型的参数。根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例描述的文本纠错处理方法。根据第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述实施例描述的文本纠错处理方法。根据第五方面,提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,使得服务器能够执行第一方面实施例所述的文本纠错处理方法应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开第一实施例的文本纠错处理方法的流程图;图2是根据本公开第二实施例的文本纠错处理方法的流程图;图3是根据本公开实施例的字形特征向量的提取示例图;图4是根据本公开实施例的字音特征向量的提取示例图;图5是根据本公开实施例的文本纠错处理模型的示例图;图6是根据本公开第三实施例的文本纠错处理方法的流程图;图7是根据本公开第四实施例的文本纠错处理装置的结构示意图;图8是根据本公开第五实施例的文本纠错处理装置的结构示意图;图9是用来实现本公开实施例的文本纠错处理的方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。在实际应用中,例如搜索优化,机器翻译等都需要对文本进行纠错处理,相关技术中,通过进行错误识别接着候选生成,最后候选选择,实现文本纠错,这种方式只能处理一一对应的错误类型,纠错效率和效果都比较差。针对上述问题,本公开提出一种文本纠错处理方法,获取原始文本,并对原始文本进行预处理获取训练文本;提取训练文本中每个字对应的多个特征向量,对多个特征向量进行处理获取输入向量;将输入向量输入文本纠错模型获取目标文本,根据目标文本和原始文本的差异,调整文本纠错模型的参数。由此,通过对原始文本进行预处理生成训练文本对文本纠错模型进行训练,提高训练文本的生成效率的同时使文本纠错模型能够针对不同错误类型进行正确处理。首先,图1是根据本公开第一实施例的文本纠错处理方法的流程图,文本纠错处理方法用于电子设备中,其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(PersonalComputer,简称PC)、移动终端等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。如图1所示,该方法包括:步骤101,获取原始文本,并对原始文本进行预处理获取训练文本。在本公开实施例中,原始文本可以理解为正确文本,可以根据应用场景选择设置,比如“你好吗”。在本公开实施例中,对原始文本进行预处理的方式有很多种,可以根据应用场景选择设置,举例说明如下:第一种示例,调整原始文本中的字词顺序、在原始文本中增加字词和删除原始文本中的一个或者多个字词。第二种示例,将原始文本中任一字词与任一字词对应的拼音全拼进行替换、将原始文本中任一字词与任一字词对应的拼音缩写进行替换。第三种示例,将原始文本中任一字词与任一字词对应的相似字词或相似拼音对应的字词进行替换。步骤102,提取训练文本中每个字对应的多个特征向量,对多个特征向量进行处理获取输入向量。在本公开实施例中,可以根据应用场景需要提取训练文本中每个字对应的多个特征向量,比如提取每个字对应的字形特征向量、字音特征向量、位置特征向量、语义向量和文本向量等中的一种或者多种。举例说明如下:第一种示例,获取每个字对应的五笔编码,将五笔编码中的每个编码字母向量进行相加后输入全连接网络,获取字形特征向量。第二种示例,获取每个字对应的拼音字母,将拼音字母中的生母向量和韵母向量进行相加后输入全连接网络,获取字音特征向量。进一步地,对多个特征向量进行处理获取输入向量,比如将每个字对应的字形特征向量、字音特征向量、位置特征向量、语义向量和文本向量进行相加处理,获取输入向量。步骤103,将输入向量输入文本纠错模型获取目标文本,根据目标文本和原始文本的差异,调整文本纠错模型的参数。在本公开实施例中,将输入向量输入文本纠错模型获取目标文本的方式有很多种,可以根据应用场景需要选择设置,举例说明如下:第一种示例,通过编码器对输入向量进行编码,获取编码向量,通过解码器对编码向量进行解码,获取语义向量,根据语义向量,获取目标文本。第二种示例,直接通过深度神经网络对输入向量进行处理,获取目标文本。进一步地,根据目标文本和原始文本的差异,调整文本纠错模型的参数,具体地,通过损失函数计算目标本文档来自技高网...
【技术保护点】
1.一种文本纠错处理方法,包括:/n获取原始文本,并对所述原始文本进行预处理获取训练文本;/n提取所述训练文本中每个字对应的多个特征向量,对所述多个特征向量进行处理获取输入向量;/n将所述输入向量输入文本纠错模型获取目标文本,根据所述目标文本和所述原始文本的差异,调整所述文本纠错模型的参数。/n
【技术特征摘要】
1.一种文本纠错处理方法,包括:
获取原始文本,并对所述原始文本进行预处理获取训练文本;
提取所述训练文本中每个字对应的多个特征向量,对所述多个特征向量进行处理获取输入向量;
将所述输入向量输入文本纠错模型获取目标文本,根据所述目标文本和所述原始文本的差异,调整所述文本纠错模型的参数。
2.根据权利要求1所述的方法,其中,所述对所述原始文本进行预处理包括以下一种或多种组合:
调整所述原始文本中的字词顺序;
在所述原始文本中增加字词;
删除所述原始文本中的一个或者多个字词;
将所述原始文本中任一字词与所述任一字词对应的拼音全拼进行替换;
将所述原始文本中任一字词与所述任一字词对应的拼音缩写进行替换;
将所述原始文本中任一字词与所述任一字词对应的相似字词或相似拼音对应的字词进行替换。
3.根据权利要求1所述的方法,其中,提取所述每个字对应的特征向量,包括:
获取所述每个字对应的五笔编码;
将所述五笔编码中的每个编码字母向量进行相加后输入全连接网络,获取字形特征向量。
4.根据权利要求1所述的方法,其中,提取所述每个字对应的特征向量,包括:
获取所述每个字对应的拼音字母;
将所述拼音字母中的生母向量和韵母向量进行相加后输入全连接网络,获取字音特征向量。
5.根据权利要求1-4任一项所述的方法,其中,所述将所述输入向量输入文本纠错模型获取目标文本,包括:
通过编码器对所述输入向量进行编码,获取编码向量;
通过解码器对所述编码向量进行解码,获取语义向量;
根据所述语义向量,获取目标文本。
6.根据权利要求1-4任一项所述的方法,在所述调整所述文本纠错模型的参数之后,还包括:
获取待处理文本;
提取所述待处理文本中每个字对应的多个待处理特征向量,对所述多个待处理特征向量进行处理,获取待处理向量;
将所述待处理向量输入所述文本纠错模型进行处理,获取纠正文本。
7.一种文本纠错处理装置,包括:
第一获取模块,用于获取原始文本;
预处理模块,用于对所述原始文本进行预处理获取训练文本;
提取模块,用于提取所述训练文本中每个字对应的多个特征向量;
第二获取模块,用于对所述多个特征向量进行处理获取输入向量;
处理模块,用于将所述输入向量输入文本纠错模型获取目标...
【专利技术属性】
技术研发人员:庞超,王硕寰,孙宇,李芝,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。