文本纠错方法、装置及存储介质制造方法及图纸

技术编号:29675070 阅读:24 留言:0更新日期:2021-08-13 21:57
本申请提供一种文本纠错方法、装置及存储介质,所述方法包括:获取待纠错文本的表示向量,将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果,其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的,所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的,所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果,能够提高文本纠错的准确性。

【技术实现步骤摘要】
文本纠错方法、装置及存储介质
本申请涉及文本识别
,尤其涉及一种文本纠错方法、装置及存储介质。
技术介绍
在搜索引擎当中,用户会输入一串文字,让计算机尝试理解这段文字的意义。一般会将文字中的每一个汉字或者词组表示为计算机内存中的一组数字,我们称这组数字为汉字的表示向量。现有的中文文本表示,主要有两种方法:1.基于统计信息的词袋模型,2.基于神经网络的字/词向量模型。上述两种方法都可以提取汉字每个字符的向量表示。但上述方法主要借鉴了英文的文本表示的方法,上述基于统计信息的n阶语言模型的词袋模型,只能抽取字词的概率信息,基于神经网络的字/词向量模型,只能学习到语义域的信息。但是在文本纠错领域,一串文字可以有多种可能的纠错结果,由于中文是现存唯一广泛使用的语素文字系统,与英文等字母书写系统不同,中文的每个字符除了语义信息外还包括了发音和字形信息。例如:文本是“美丽的鲜华”,其中因为“鲜艳”是一个常见的单词,所以“美丽的鲜艳”是一种潜在的纠错结果。同时“美丽的鲜花”是一种潜在的纠错结果。因为“华”和“花”的发音相似,所以一本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n获取待纠错文本的表示向量;/n将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果;/n其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的;/n所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的;所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
获取待纠错文本的表示向量;
将所述表示向量输入文本纠错模型,输出与所述待纠错文本对应的文本纠错结果;
其中,所述文本纠错模型是基于待纠错文本样本以及预先确定的文本纠错结果标签进行训练后得到的;
所述文本纠错模型输出的文本纠错结果是基于所述文本纠错模型所包含的检测模块、分词模块和纠错模块得到的;所述检测模块用于确定所述待纠错文本对应的纠错类型,所述分词模块用于确定所述待纠错文本对应的分词结果,所述纠错模块用于基于所述待纠错文本对应的纠错类型和分词结果,确定所述待纠错文本对应的纠错结果。


2.根据权利要求1所述的文本纠错方法,其特征在于,所述检测模块是基于所述待纠错文本样本以及预先确定的文本纠错类型标签进行预训练后得到的;所述文本纠错类型包括:拼音纠错、中文纠错和英文纠错;
所述分词模块是基于所述待纠错文本样本以及预先确定的分词结果标签进行预训练后得到的;
所述纠错模块包括与所述文本纠错类型对应的拼音纠错子模块、中文纠错子模块和英文纠错子模块;
所述拼音纠错子模块是基于所述待纠错文本样本以及预先确定的拼音纠错结果标签进行预训练后得到的;所述中文纠错子模块是基于所述待纠错文本样本以及预先确定的中文纠错结果标签进行预训练后得到的;所述英文纠错子模块是基于所述待纠错文本样本以及预先确定的英文纠错结果标签进行预训练后得到的。


3.根据权利要求1所述的文本纠错方法,其特征在于,所述获取待纠错文本的表示向量,包括:
确定所述待纠错文本对应的语义向量、语言模型向量、拼音向量和字形向量;
将所述语义向量、语言模型向量、拼音向量和字形向量输入信息抽取模型,输出所述待纠错文本的表示向量;
其中,所述信息抽取模型是基于待纠错文本样本进行训练后得到的。


4.根据权利要求3所述的文本纠错方法,其特征在于,所述确定所述待纠错文本对应的语言模型向量的步骤,包括:
基于预训练的前向二阶语言模型、前向三阶语言模型、后向二阶语言模型和后向三阶语言模型,确定所述待纠错文本中各字符对应的浮点数概率分布向量...

【专利技术属性】
技术研发人员:章立王瑞欣方宽周日康李大海
申请(专利权)人:智者四海北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1