文本纠错处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:39245722 阅读:29 留言:0更新日期:2023-10-30 11:58
本申请提供了一种文本纠错处理方法、装置、电子设备及可读存储介质;方法包括:获取目标文本;确定所述目标文本中每个目标字符的语义特征向量,并确定所述每个目标字符的发音特征向量;对所述每个目标字符的语义特征向量和发音特征向量进行融合处理,得到所述每个目标字符的字符特征向量;基于所述每个目标字符的字符特征向量进行编码处理,得到所述每个目标字符的上下文特征向量;将所述每个目标字符的上下文特征向量映射为字表中每个候选字符的概率,将最大概率的候选字符作为纠错字符,基于所述每个目标字符对应的纠错字符组合形成纠错文本。通过本申请,能够有效地直接对存在错误的文本进行纠错,提高文本纠错效果。提高文本纠错效果。提高文本纠错效果。

【技术实现步骤摘要】
文本纠错处理方法、装置、电子设备及可读存储介质


[0001]本申请涉及基于人工智能的文本处理技术,尤其涉及一种文本纠错处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]文本纠错具有非常广泛的应用前景,例如搜索查询纠错、语音识别文本的纠错、文档纠错。这些纠错方法通常采用训练好的文本纠错模型,实施在对应的产品端的应用场景中,用于自动纠错。但是这些文本纠错模型的训练依赖于大规模人工标注的监督数据来训练,以保证模型的纠错效果。而人工标注的监督数据数量有限,构建成本高。
[0003]在人工标注的监督数据基础上训练的文本纠错模型,大多依赖于监督数据中文本字符的语义特征,文本纠错模型的效果依然很差。

技术实现思路

[0004]本申请实施例提供一种文本纠错处理方法、装置、电子设备及可读存储介质,能够有效挖掘待纠错文本的拼音特征对文本进行纠错,提高文本纠错精度。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种文本纠错处理方法,所述方法包括:
[0007]获取目标文本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本纠错处理方法,其特征在于,所述方法包括:获取目标文本;确定所述目标文本中每个目标字符的语义特征向量,并确定所述每个目标字符的发音特征向量;对所述每个目标字符的语义特征向量和发音特征向量进行融合处理,得到所述每个目标字符的字符特征向量;基于所述每个目标字符的字符特征向量进行编码处理,得到所述每个目标字符的上下文特征向量;将所述每个目标字符的上下文特征向量映射为字表中每个候选字符的概率,将最大概率的候选字符作为纠错字符;基于所述每个目标字符对应的纠错字符组合形成纠错文本。2.根据权利要求1所述的方法,其特征在于,所述确定所述目标文本中每个目标字符的语义特征向量,包括:对所述每个目标字符进行嵌入处理,得到所述每个目标字符的词嵌入向量,将所述每个目标字符的词嵌入向量作为所述每个目标字符的语义特征向量,其中,任意两个所述目标字符在语义维度的相似程度,与任意两个所述目标字符的语义特征向量之间的距离负相关。3.根据权利要求1所述的方法,其特征在于,所述确定所述每个目标字符的发音特征向量,包括:针对所述每个目标字符执行以下处理:获取所述目标字符的音标;对所述音标进行嵌入处理,得到所述音标的音标嵌入向量,将所述音标嵌入向量作为所述目标字符的发音特征向量,其中,不同的所述音标的发音方式的相似程度,与不同的所述音标的发音特征向量之间的距离正相关。4.根据权利要求3所述的方法,其特征在于,当所述目标文本为中文时,所述字符的音标包括所述字符的拼音;所述对所述音标进行嵌入处理,得到所述音标的音标嵌入向量,包括:对所述拼音的声母进行嵌入处理,得到声母嵌入向量;对所述拼音的韵母进行嵌入处理,得到韵母嵌入向量;对所述声母嵌入向量和韵母嵌入向量进行非线性变换,得到所述音标的音标嵌入向量。5.根据权利要求1所述的方法,其特征在于,所述对所述每个目标字符的语义特征向量和发音特征向量进行融合处理,得到所述每个目标字符的字符特征向量,包括:对所述每个目标字符的语义特征向量和发音特征向量进行相加处理,将得到的加和作为所述每个目标字符的字符特征向量。6.根据权利要求5所述的方法,其特征在于,所述对所述每个目标字符的语义特征向量和发音特征向量进行相加处理,将得到的加和作为所述每个目标字符的字符特征向量,包括:获取所述每个目标字符在所述目标文本中的位置;
对所述每个目标字符的位置进行嵌入处理,得到所述每个目标字符的位置特征向量;对所述每个目标字符的语义特征向量、发音特征向量和位置特征向量进行相加处理,将得到的加和作为所述每个目标字符的字符特征向量。7.根据权利要求1所述的方法,其特征在于,所述基于所述每个目标字符的上下文特征向量进行字符预测处理,得到所述每个目标字符的纠正字符,包括:将所述每个目标字符的上下文特征向量映射为字表中每个候选字符的概率;将最大概率的字符作为纠错字符。8.根据权利要求1至7任一项所述的方法,其特征在于,所述目标字符是所述目标文本中的错误字符;所述方法还包括:将所述目标文本中的全部的原始字符都替换为掩码标记,得...

【专利技术属性】
技术研发人员:胡勇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1