引入词语信息的错别字纠正方法、装置和计算机设备制造方法及图纸

技术编号:41175281 阅读:27 留言:0更新日期:2024-05-07 22:11
本申请属于人工智能技术领域,特别涉及一种引入词语信息的错别字纠正方法、装置和计算机设备。方法包括:获取待纠正的输入文本;基于文本向量转换模型,将输入文本转换为文本向量集;基于词表及词表中每一元素对应的词向量,获取输入文本的词向量集;基于文本向量集与词向量集,生成特征融合向量集;将特征融合向量集输入预训练的错别字纠正模型,获得预测结果集,其中,预测结果集为输入文本中所有汉字对应的待替换汉字集中的各汉字的概率分布,待替换汉字集中包括至少一个可能用于替换输入文本中其中一个汉字的待替换字的集合;基于预测结果集获得与输入文本对应的正确文本。上述方法、装置和计算机设备可提高错别字纠正的准确率。

【技术实现步骤摘要】

本申请涉及人工智能,具体而言,本申请涉及一种引入词语信息的错别字纠正方法、装置和计算机设备


技术介绍

1、中文错别字纠正被广泛应用于教育、出版、网页搜索等领域。当前的错别字纠正模型的输入一般是以字为单位的,无法考虑词语信息。然而,词语信息对错别字纠正而言非常重要,如果一个汉字不能和相邻的或周围的汉字组成常用词,那么这个汉字很有可能是错误。反之,若一个汉字可以和相邻的或周围的汉字组成常用词,那么该汉字则很有可能是正确。因此,在进行中文错别字纠正时,有必要引入词语信息以提高错别字纠正的准确率。


技术实现思路

1、本申请的主要目的为提供一种引入词语信息的错别字纠正方法、装置和计算机设备,旨在解决由于未考虑词语信息而导致的中文错别字纠正的准确率较低的技术问题。

2、为了实现上述专利技术目的,本申请提供一种引入词语信息的错别字纠正方法,包括:

3、获取待纠正的输入文本;

4、基于文本向量转换模型,将所述输入文本转换为文本向量集;

5、基于预先生成的词表及所述词表中每一元本文档来自技高网...

【技术保护点】

1.一种引入词语信息的错别字纠正方法,其特征在于,包括:

2.根据权利要求1所述的引入词语信息的错别字纠正方法,其特征在于,所述基于预先生成的词表及所述词表中每一元素对应的词向量,获取所述输入文本的词向量集的步骤,包括:

3.根据权利要求2所述的引入词语信息的错别字纠正方法,其特征在于,所述基于所述文本向量集与所述词向量集,生成特征融合向量集的步骤,包括:

4.根据权利要求3所述的引入词语信息的错别字纠正方法,其特征在于,所述维度转换词向量由以下公式计算获得:

5.根据权利要求3所述的引入词语信息的错别字纠正方法,其特征在于,所述汉字组合中...

【技术特征摘要】

1.一种引入词语信息的错别字纠正方法,其特征在于,包括:

2.根据权利要求1所述的引入词语信息的错别字纠正方法,其特征在于,所述基于预先生成的词表及所述词表中每一元素对应的词向量,获取所述输入文本的词向量集的步骤,包括:

3.根据权利要求2所述的引入词语信息的错别字纠正方法,其特征在于,所述基于所述文本向量集与所述词向量集,生成特征融合向量集的步骤,包括:

4.根据权利要求3所述的引入词语信息的错别字纠正方法,其特征在于,所述维度转换词向量由以下公式计算获得:

5.根据权利要求3所述的引入词语信息的错别字纠正方法,其特征在于,所述汉字组合中每个汉字组合的权重由以下公式获得:

6.根据权利要求3所述的引入词语信息...

【专利技术属性】
技术研发人员:刘旺旺
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1