文本纠错处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:27936737 阅读:38 留言:0更新日期:2021-04-02 14:17
本公开公开了文本纠错处理方法、装置、电子设备和存储介质,涉及深度学习和自然语言处理等人工智能领域。具体实现方案为:获取原始文本,并对原始文本进行预处理获取训练文本;提取训练文本中每个字对应的多个特征向量,对多个特征向量进行处理获取输入向量;将输入向量输入文本纠错模型获取目标文本,根据目标文本和原始文本的差异,调整文本纠错模型的参数。由此,通过对原始文本进行预处理生成训练文本对文本纠错模型进行训练,提高训练文本的生成效率的同时使文本纠错模型能够针对不同错误类型进行正确处理。

【技术实现步骤摘要】
文本纠错处理方法、装置、电子设备和存储介质
本公开涉及计算机
,具体地,涉及深度学习和自然语言处理等人工智能领域,尤其涉及一种文本纠错处理方法、装置、电子设备和存储介质。
技术介绍
目前,拼写纠错的目标是对自然语言中的拼写错误进行纠正,其对于许多潜在的自然语言处理应用具有广泛地应用,例如搜索优化,机器翻译,词性标注等。相关技术中,中文拼写错误纠错方式一般以流水线的形式进行,首先进行错误识别接着候选生成,最后候选选择,这种方式的训练语料需要人工标注,数量往往较小,只能处理一一对应的错误类型,比如字词颠倒、字词补全等错误不能识别,从而纠错效率和效果都比较差。
技术实现思路
本公开提供了一种用于文本纠错处理方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种文本纠错处理方法,包括:获取原始文本,并对所述原始文本进行预处理获取训练文本;提取所述训练文本中每个字对应的多个特征向量,对所述多个特征向量进行处理获取输入向量;将所述输入向量输入文本纠错模型获取目标文本,根据所述目标文本和本文档来自技高网...

【技术保护点】
1.一种文本纠错处理方法,包括:/n获取原始文本,并对所述原始文本进行预处理获取训练文本;/n提取所述训练文本中每个字对应的多个特征向量,对所述多个特征向量进行处理获取输入向量;/n将所述输入向量输入文本纠错模型获取目标文本,根据所述目标文本和所述原始文本的差异,调整所述文本纠错模型的参数。/n

【技术特征摘要】
1.一种文本纠错处理方法,包括:
获取原始文本,并对所述原始文本进行预处理获取训练文本;
提取所述训练文本中每个字对应的多个特征向量,对所述多个特征向量进行处理获取输入向量;
将所述输入向量输入文本纠错模型获取目标文本,根据所述目标文本和所述原始文本的差异,调整所述文本纠错模型的参数。


2.根据权利要求1所述的方法,其中,所述对所述原始文本进行预处理包括以下一种或多种组合:
调整所述原始文本中的字词顺序;
在所述原始文本中增加字词;
删除所述原始文本中的一个或者多个字词;
将所述原始文本中任一字词与所述任一字词对应的拼音全拼进行替换;
将所述原始文本中任一字词与所述任一字词对应的拼音缩写进行替换;
将所述原始文本中任一字词与所述任一字词对应的相似字词或相似拼音对应的字词进行替换。


3.根据权利要求1所述的方法,其中,提取所述每个字对应的特征向量,包括:
获取所述每个字对应的五笔编码;
将所述五笔编码中的每个编码字母向量进行相加后输入全连接网络,获取字形特征向量。


4.根据权利要求1所述的方法,其中,提取所述每个字对应的特征向量,包括:
获取所述每个字对应的拼音字母;
将所述拼音字母中的生母向量和韵母向量进行相加后输入全连接网络,获取字音特征向量。


5.根据权利要求1-4任一项所述的方法,其中,所述将所述输入向量输入文本纠错模型获取目标文本,包括:
通过编码器对所述输入向量进行编码,获取编码向量;
通过解码器对所述编码向量进行解码,获取语义向量;
根据所述语义向量,获取目标文本。


6.根据权利要求1-4任一项所述的方法,在所述调整所述文本纠错模型的参数之后,还包括:
获取待处理文本;
提取所述待处理文本中每个字对应的多个待处理特征向量,对所述多个待处理特征向量进行处理,获取待处理向量;
将所述待处理向量输入所述文本纠错模型进行处理,获取纠正文本。


7.一种文本纠错处理装置,包括:
第一获取模块,用于获取原始文本;
预处理模块,用于对所述原始文本进行预处理获取训练文本;
提取模块,用于提取所述训练文本中每个字对应的多个特征向量;
第二获取模块,用于对所述多个特征向量进行处理获取输入向量;
处理模块,用于将所述输入向量输入文本纠错模型获取目标...

【专利技术属性】
技术研发人员:庞超王硕寰孙宇李芝
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1