一种文本纠错方法、装置以及相关设备制造方法及图纸

技术编号:19541745 阅读:41 留言:0更新日期:2018-11-24 20:17
本发明专利技术实施例公开了一种文本纠错方法、装置以及相关设备,所述方法包括:获取目标文本,将所述目标文本中的所有字符,作为目标字符;获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。采用本发明专利技术,可以提高对文本的纠错准确率。

A Text Error Correction Method, Device and Related Equipment

The embodiment of the present invention discloses a text error correction method, device and related equipment, which includes: acquiring target text, taking all characters in the target text as target characters, acquiring multiple auxiliary data associated with each target character, and extracting auxiliary features corresponding to each auxiliary data separately. Vector, and the target eigenvector is obtained by splicing several auxiliary eigenvectors belonging to the same target character; one auxiliary data refers to the input source data corresponding to the target character; all target eigenvectors are combined into the target eigenvector sequence to recognize the target eigenvector sequence. The standard text is obtained and the target text is corrected according to the standard text. By adopting the invention, the error correction accuracy of the text can be improved.

【技术实现步骤摘要】
一种文本纠错方法、装置以及相关设备
本专利技术涉及计算机
,尤其涉及一种文本纠错方法、装置以及相关设备。
技术介绍
在信息技术迅猛发展的今天,人与移动终端的交互也越来越来越频繁。现在移动终端已经能够理解自然语言,但是用户在向移动终端输入自然语言的同时不可避免地会出现输入错误,这样给移动终端理解用户的语义带来很大的障碍,所以对自然语言的输入纠错就具有非常重要的意义。用户的输入错误主要包括拼音错误(例如,将“勤劳”输入为“琴老”)、手写错误(例如将“太阳”输入为“大阳”)等,现有方法只能根据拼音纠错,即是根据拼音和汉字的对应关系以及该汉字的上下文关系,训练纠错模型,该纠错模型可以纠正拼音相同或者拼音相似但文字不同的错误输入文本,例如,可以将“琴劳的人民”纠正为“勤劳的人民”。但用户的输入方式是多种多样的,对那些非拼音输入的错误文本(例如,笔画错误),采用单一的拼音纠错模型就不能准确识别文本中的错误以及有效地纠正该错误,进而降低对输入文本的纠错准确率。
技术实现思路
本专利技术实施例提供一种文本纠错方法、装置以及相关设备,可以提高对文本的纠错准确率。本专利技术一方面提供了一种文本纠错方法本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,包括:获取目标文本,将所述目标文本中的所有字符,作为目标字符;获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:获取目标文本,将所述目标文本中的所有字符,作为目标字符;获取与每个目标字符相关联的多个辅助数据,分别提取每个辅助数据对应的辅助特征向量,并将属于同一个目标字符的多个辅助特征向量拼接处理,得到目标特征向量;一个所述辅助数据是指所述目标字符对应的一种输入来源数据;将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,并根据所述标准文本对所述目标文本进行纠错处理。2.根据权利要求1所述的方法,其特征在于,所述辅助数据包括:拼音数据、笔画数据和字形数据;所述分别提取每个辅助数据对应的辅助特征向量,包括基于循环神经网络对所述笔画数据进行时序处理,得到所述笔画数据对应的时序特征向量;基于卷积神经网络对所述拼音数据进行卷积处理和池化处理,得到所述拼音数据对应的空间特征向量;基于所述卷积神经网络对所述字形数据进行卷积处理和池化处理,得到所述字形数据对应的空间特征向量;将所述笔画数据对应的时序特征向量、所述拼音数据对应的空间特征向量和所述字形数据对应的空间特征向量均作为所述辅助特征向量。3.根据权利要求1所述的方法,其特征在于,所述将所有目标特征向量组合为目标特征向量序列,识别所述目标特征向量序列,得到标准文本,包括:根据所述目标字符在所述目标文本中的顺序,将所述每个目标字符对应的目标特征向量组合为所述目标特征向量序列;基于第一长短期记忆网络中的隐藏层,对所述目标特征向量序列进行双向循环编码处理,得到所述目标特征向量序列对应的正向语义向量和逆向语义向量,将所述正向语义向量和所述逆向语义向量相加,得到所述目标特征向量序列对应的目标语义向量;基于第二长短期记忆网络中的隐藏层、所述目标特征向量序列中各目标特征向量,对所述目标语义向量解码处理,得到各目标特征向量对应的目标隐藏状态向量;识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本。4.根据权利要求3所述的方法,其特征在于,所述识别所有目标隐藏状态向量,得到各目标隐藏状态向量对应的标准字符,并将所述所有目标隐藏状态向量对应的标准字符组合为所述标准文本,包括:基于所述第二长短期记忆网络的输出层,识别所有目标隐藏状态向量与所述第二长短期记忆网络中多个字符特征之间的匹配概率;将所述匹配概率大于匹配阈值的字符特征对应的字符,作为标准字符,将所有目标特征向量对应的标准字符组合为至少一个待确定文本;所述待确定文本中各标准字符对应不同的目标特征向量,且所述待确定文本中的标准字符的数量和所有目标特征向量的数量相等;将置信度大于置信阈值所对应的待确定文本作为所述标准文本;所述待确定文本对应的置信度是通过所述待确定文本中各标准字符对应的匹配概率所计算得到的。5.根据权利要求4所述的方法,其特征在于,所述将所有目标特征向量对应的标准字符组合为至少一个待确定文本,包括:将在所述目标特征向量序列中位于首位的目标特征向量所对应的标准字符作为子文本,将与所述子文本相邻的目标特征向量对应的标准字符作为待确定标准字符,并根据所述子文本中的标准字符对应的匹配概率计算所述子文本对应的置信度;将所述待确定标准字符和所述子文本组合为待确定子文本;所述待确定子文本包括一个待确定标准字符和一个子文本;所述子文本中各标准字符对应不同的目标特征向量;根据所述待确定标准字符对应的匹配概率和所述子文本对应的置信度,计算所述待确定子文本对应的子置信度,并将满足集束宽度条件的子置信度作为目标置信度,将所述目标置信度对应的待确定子文本作为所述子文本,并将与位于所述子文本末尾的标准字符相邻的目标特征向量对应的标准字符作为所述待确定标准字符,将所述目标置信度作为所述子文本对应的置信度,直至当所有剩余标准字符均被确定为待确定标准字符时,将最后一次迭代得到的子文本作为所述待确定文本,将所述目标置信度作为所述待确定文本对应的置信度;所述剩余标准字符是在所述目标特征向量序列中除了位于首位的目标特征向量对应的标准字符以外的标准字符。6.根据权利要求1所述的方法,其特征在于,所述根据所述标准文本对所述目标文本进行纠错处理,包括:利用所述标准文本替换所述目标文本,并输出所述标准文本。7.根据权利要求1所述的方法,其特征在于,还包括:将纠错处理后的目标文本确定为纠错标准文本;语义理解所述纠错标准文本,得到所述纠错标准文本对应的语义信息,根据语义知识库中的先验知识和所述语义信息,对所述纠错标准文本进行纠错处理。8.一种文本纠错装置,其特征在于,包括:获取模块,用于获取目标文本,将所述目标文本中的所有字...

【专利技术属性】
技术研发人员:卢小东
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1