文本处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:31154150 阅读:24 留言:0更新日期:2021-12-04 09:43
本公开实施例公开了一种文本处理方法、装置、电子设备及计算机可读存储介质,所述方法包括:获取文本对象,并对所述文本对象进行向量化处理,得到与所述文本对象对应的向量化矩阵;对于所述向量化矩阵进行第一特征提取,得到第一特征矩阵,并基于所述第一特征矩阵进行拼写检查,得到拼写检查概率矩阵;对于所述第一特征矩阵进行第二特征提取,得到第二特征矩阵,并基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果。该技术方案综合使用了拼写检查特征数据和拼写纠错特征数据,在保证文本处理质量、提高文本处理鲁棒性的前提下,还能够有效提高文本处理的效率,节约人工成本。节约人工成本。节约人工成本。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及计算机可读存储介质


[0001]本公开实施例涉及图像处理
,具体涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]人们在使用输入工具输入文本时,经常会出现拼写错误、形近字错误、音近字错误等输入错误,上述输入错误通常会使得文本容易被误解,进而影响人们文字交流的效果和效率,而且在很多严谨的文书场景中,比如政策、司法、合同文本等,对于上述输入错误的容忍度几乎是零。因此,很多情况下都需要对于文本进行校对,现有技术中存在人工校对和机器校对两种校对方式,其中,人工校对方式相对校对质量较高,但其耗时耗力,校对效率低下;机器校对方式校对速度快,但由于中文文本表达方式非常复杂,很多拼写错误难以被准确识别,另外,现有机器校对方法中使用的拼写检查特征数据和拼写纠错特征数据是相对独立的数据,无论哪种数据都不足以提高文本校对的鲁棒性,因此校对质量低下。综上,亟需一种能够同时保障校对质量和校对效率又能够节约人工成本的文本处理方法。

技术实现思路

[0003]本公开实施例提供一种文本处理方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:获取文本对象,并对所述文本对象进行向量化处理,得到与所述文本对象对应的向量化矩阵;对于所述向量化矩阵进行第一特征提取,得到第一特征矩阵,并基于所述第一特征矩阵进行拼写检查,得到拼写检查概率矩阵;对于所述第一特征矩阵进行第二特征提取,得到第二特征矩阵,并基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果。2.根据权利要求1所述的方法,所述获取文本对象,并对所述文本对象进行向量化处理,得到与所述文本对象对应的向量化矩阵,被实施为:获取文本对象;对于所述文本对象进行字分割得到字集合;对于所述字集合进行向量化矩阵映射,得到与所述文本对象对应的向量化矩阵,其中,所述向量化矩阵的维度为n*d,n为字集合中字的数量,d为预设向量化维度。3.根据权利要求2所述的方法,所述对于所述向量化矩阵进行第一特征提取,得到第一特征矩阵,被实施为:确定上下文特征提取模型;利用所述上下文特征提取模型提取所述向量化矩阵的上下文特征,得到第一特征矩阵,其中,所述第一特征矩阵的维度为n*h1,n为字集合中字的数量,h1为所述上下文特征提取模型的预设输出维度。4.根据权利要求2或3所述的方法,所述基于所述第一特征矩阵进行拼写检查,得到拼写检查概率矩阵,被实施为:确定拼写检查模型;将所述第一特征矩阵作为所述拼写检查模型的输入进行计算,得到拼写检查概率矩阵,其中,所述拼写检查概率矩阵的维度为n*r,n为字集合中字的数量,r为拼写检查结果类别的数量。5.根据权利要求2或3所述的方法,所述对于所述第一特征矩阵进行第二特征提取,得到第二特征矩阵,被实施为:确定拼写处理特征提取模型;利用所述拼写处理特征提取模型提取所述第一特征矩阵的拼写处理特征,得到第二特征矩阵,其中,所述第二特征矩阵的维度为n*h2,n为字集合中字的数量,h2为所述拼写处理特征提取模型的预设输出维度。6.根据权利要求2或3所述的方法,所述基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果,被实施为:确定预设词表和处理候选概率计算模型,其中,所述预设词表至少包括所述字集合;将所述第二特征矩阵作为所述处理候选概率计算模型的输入进行计算,得到处理候选概率矩阵,其中,所述处理候选概率矩阵用于表示所述字集合中的字在所述预设词表中的对应校正候选概率,所述处理候选概率矩阵的维度为n*V,n为字集合中字的数量,V为所述预设词表中字的数量;基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果。
7.根据权利要求6所述的方法,所述拼写检查概率矩阵中包括正确和错误两种拼写检查结果;所述基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果,被实施为:基于所述字集合与预设词表之间字的位置关系建立位置概率矩阵;将所述位置概率矩阵与所述拼写检查概率矩阵中正确拼写检查结果对应的概率向量相乘得到第一文本对象处理概率矩阵;将所述处理候选概率矩阵与所述拼写检查概率矩阵中错误拼写检查结果对应的概率向量相乘得到第二文本对象处理概率矩阵;将所述第一文本对象处理概率矩阵与第二文本对象处理概率矩阵相加,得到文本对象处理概率矩阵,其中,所述文本对象处理概率矩阵的行向量分别顺序对应所述预设词表中字的处理概率;将所述文本对象处理概率矩阵行向量中概率最大的向量值对应的字作为所述文本对象中对应位置字的处理结果。8.一种文本处理装置,包括:向量化处理模块,被配置为获取文本对象,并对所述文本对象进行向量化处理,得到与所述文本对象对应的向量化矩阵;拼写检查模块,被配置为对于所述向量化矩阵进行第一特征提取,得到第...

【专利技术属性】
技术研发人员:包祖贻李辰王睿
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1