【技术实现步骤摘要】
纠错方法、装置、设备以及存储介质
[0001]本申请涉及人工智能
,特别是涉及一种纠错方法、装置、设备以及存储介质。
技术介绍
[0002]随着社会科技的不断发展进步,各式各样的电子设备已在人们的生活中普及。输入法作为人与电子设备的交互入口,其方便、高效,准确等特点是人们所关注的。但是,往往在输入过程中因为书写不规范或按键错误导致输入文本错误,所以诞生了许多针对文本的纠错方法。一般纠错方法的流程如下:通过分词发现疑似错误字词,对错误字词使用同音或相近似的词语根据统计语言模型算分确定最终的纠错结果。这种仅使用单一的拼音确定纠错结果进行纠错会导致纠错结果不准确。
技术实现思路
[0003]本申请至少提供一种纠错方法、装置、设备以及存储介质。
[0004]本申请第一方面提供了一种纠错方法,包括:获取待纠错文本;利用纠错模型对待纠错文本进行文本处理,得到文本处理信息,其中,文本处理信息包括待纠错文本的上下文语义信息和待纠错文本中的相似字符信息;利用纠错模型对文本处理信息进行预测,得到待纠错文本的预测纠错 ...
【技术保护点】
【技术特征摘要】
1.一种纠错方法,其特征在于,包括:获取待纠错文本;利用纠错模型对所述待纠错文本进行文本处理,得到文本处理信息,其中,所述文本处理信息包括所述待纠错文本的上下文语义信息和所述待纠错文本中的相似字符信息;利用所述纠错模型对所述文本处理信息进行预测,得到所述待纠错文本的预测纠错结果。2.根据权利要求1所述的方法,其特征在于,所述待纠错文本中的相似字符信息包括所述待纠错文本中的原始字符的相似字符以及所述原始字符与相似字符之间的相似度。3.根据权利要求1所述的方法,其特征在于,所述纠错模型包括第一子网络和第二子网络;其中,所述第一子网络用于获取所述待纠错文本的上下文语义信息,所述第二子网络用于获取所述待纠错文本中的相似字符信息。4.根据权利要求3所述的方法,其特征在于,所述利用纠错模型对所述待纠错文本进行文本处理,得到文本处理信息,包括:利用所述第二子网络中的至少一卷积层对所述待纠错文本进行图卷积操作,得到所述相似字符信息;其中,所述图卷积操作采用所述卷积层对应的相似图,所述相似图包括若干易混淆字符以及所述易混淆字符之间的相似权重。5.根据权利要求4所述的方法,其特征在于,所述利用所述第二子网络中的至少一卷积层对所述待纠错文本进行图卷积操作,得到所述相似字符信息,包括:以每所述卷积层作为当前卷积层;利用所述当前卷积层对所述当前卷积层的输入信息和相似图进行卷积操作,得到所述当前卷积层的第一图卷积结果;其中,首层所述卷积层的输入信息为所述待纠错文本,非首层所述卷积层的输入信息为前一所述卷积层的输出结果;基于所述当前卷积层的第一图卷积结果以及所述当前卷积层之前的所有卷积层或部分卷积层的输出结果,得到所述当前卷积层的输出结果;基于最后一层所述卷积层的输出结果,得到所述相似字符信息。6.根据权利要求5所述的方法,其特征在于,所述利用所述当前卷积层对所述当前卷积层的输入信息和相似图进行卷积操作,得到所述当前卷积层的第一图卷积结果,包括:利用所述当前卷积层对所述当前卷积层的输入信息和至少一个相似图分别进行卷积操作,得到所述当前卷积层的每个所述相似图对应的第二图卷积结果;其中,每所述卷积层的不同所述相似图中的易混淆字符是针对不同输入方式的;对所述当前卷积层的每个所述相似图对应的第二图卷积结果进行加权求和,得到所述当前卷积层的第一图卷积结果;其中,所述相似图对应的第二图卷积结果的权重是基于所述待纠错文本所采用的输入方式确定的。7.根据权利要求4所述的方法,其特征在于,在所述利用所述第二子网络中的至少一卷积层对所述待纠错文本进行图卷积操作,得到所述相似字符信息之前,所述方法还包括:获取回删文本语料,其中,所述回删文本语料包括由修改前后的字符组成的字符对;根据所述字符对所采用的输入方式对应的相似认定标准,选出若干所述字符对;基于选出的所述若干字符对...
【专利技术属性】
技术研发人员:王永灿,丁克玉,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。