结合语义的错别字纠正方法、装置和计算机设备制造方法及图纸

技术编号:40950579 阅读:14 留言:0更新日期:2024-04-18 20:25
本申请属于人工智能技术领域,特别涉及一种结合语义的错别字纠正方法、装置和计算机设备。方法包括:获取待纠正的输入文本;基于文本向量转换模型,将所述输入文本转换为第一文本向量集;基于预训练的语义表征模型,获取所述输入文本的语义表征向量集;将所述第一文本向量与所述语义表征向量结合,生成第二文本向量集;将所述第二文本向量集输入预训练的错别字纠正模型,获得第一预测结果集;基于所述第一预测结果集获得与所述输入文本对应的正确文本。上述方法、装置和计算机设备可提高错别字纠正的准确率。

【技术实现步骤摘要】

本申请涉及人工智能,具体而言,本申请涉及一种结合语义的错别字纠正方法、装置和计算机设备


技术介绍

1、中文错别字纠正应用十分广泛,例如应用于教育、出版等领域。当前,中文错别字纠正效果非常依赖于汉字混淆集(即一个汉字可能被错写成其他汉字的集合),其中,汉字混淆集一般包含与待纠错字拼音相近或形状相近的汉字,而对于未收集在汉字混淆集中的错误,即使上下文语义不合适,也很难得以正确纠正。总而言之,现有的文字纠错方法在进行中文错别字纠正时并未充分考虑上下文语义信息,而更多依赖于汉字混淆集中收集的与待纠正汉字音形相近的汉字资源,从而导致中文错别字纠正的效果较差。


技术实现思路

1、本申请的主要目的为提供一种结合语义的错别字纠正方法、装置和计算机设备,旨在解决由于未考虑上下文语义信息而导致的中文错别字纠正效果较差的技术问题。

2、为了实现上述专利技术目的,本申请提供一种结合语义的错别字纠正方法,包括:

3、获取待纠正的输入文本;

4、基于文本向量转换模型,将所述输入文本转换为第一文本向量本文档来自技高网...

【技术保护点】

1.一种结合语义的错别字纠正方法,其特征在于,包括:

2.根据权利要求1所述的结合语义的错别字纠正方法,其特征在于,所述基于预训练的语义表征模型,获取所述输入文本的语义表征向量集的步骤,包括:

3.根据权利要求2所述的结合语义的错别字纠正方法,其特征在于,所述基于每一所述目标纠正字对应的所述概率分布,获取所述输入文本的语义表征向量集的步骤,包括:

4.根据权利要求3所述的结合语义的错别字纠正方法,其特征在于,所述第二待替换汉字集中每一汉字的所述标准化概率由以下公式计算获得:

5.根据权利要求4所述的结合语义的错别字纠正方法,其特征在于,所述...

【技术特征摘要】

1.一种结合语义的错别字纠正方法,其特征在于,包括:

2.根据权利要求1所述的结合语义的错别字纠正方法,其特征在于,所述基于预训练的语义表征模型,获取所述输入文本的语义表征向量集的步骤,包括:

3.根据权利要求2所述的结合语义的错别字纠正方法,其特征在于,所述基于每一所述目标纠正字对应的所述概率分布,获取所述输入文本的语义表征向量集的步骤,包括:

4.根据权利要求3所述的结合语义的错别字纠正方法,其特征在于,所述第二待替换汉字集中每一汉字的所述标准化概率由以下公式计算获得:

5.根据权利要求4所述的结合语义的错别字纠正方法,其特征在于,所述输入文本中每一汉字的语义表征向量根据以下公式获得:

6.根据权利要求5所...

【专利技术属性】
技术研发人员:刘旺旺
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1