System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,具体而言,本申请涉及一种引入词语信息的错别字纠正方法、装置和计算机设备。
技术介绍
1、中文错别字纠正被广泛应用于教育、出版、网页搜索等领域。当前的错别字纠正模型的输入一般是以字为单位的,无法考虑词语信息。然而,词语信息对错别字纠正而言非常重要,如果一个汉字不能和相邻的或周围的汉字组成常用词,那么这个汉字很有可能是错误。反之,若一个汉字可以和相邻的或周围的汉字组成常用词,那么该汉字则很有可能是正确。因此,在进行中文错别字纠正时,有必要引入词语信息以提高错别字纠正的准确率。
技术实现思路
1、本申请的主要目的为提供一种引入词语信息的错别字纠正方法、装置和计算机设备,旨在解决由于未考虑词语信息而导致的中文错别字纠正的准确率较低的技术问题。
2、为了实现上述专利技术目的,本申请提供一种引入词语信息的错别字纠正方法,包括:
3、获取待纠正的输入文本;
4、基于文本向量转换模型,将所述输入文本转换为文本向量集;
5、基于预先生成的词表及所述词表中每一元素对应的词向量,获取所述输入文本的词向量集;
6、基于所述文本向量集与所述词向量集,生成特征融合向量集;
7、将所述特征融合向量集输入预训练的错别字纠正模型,获得预测结果集,其中,所述预测结果集为所述输入文本中所有汉字对应的待替换汉字集中的各汉字的概率分布,所述待替换汉字集中包括至少一个可能用于替换所述输入文本中其中一个汉字的待替换字的集合;
9、在一些实施例中,所述基于预先生成的词表及所述词表中每一元素对应的词向量,获取所述输入文本的词向量集的步骤,包括:
10、将所述输入文本中的每一个汉字作为目标纠正字;
11、将每个所述目标纠正字与所述输入文本中的其他汉字自由组合,生成n个汉字组合,其中,n为正整数;
12、将所述汉字组合中包含于所述词表的汉字组合的词向量设为与所述汉字组合相同的所述元素对应的所述词向量,以及将所述汉字组合中不包含于所述词表的汉字组合的词向量均设为第一向量,从而获得所述每个目标纠正字的词向量组合;
13、根据每个所述目标纠正字的词向量组合获得所述输入文本的词向量集。
14、在一些实施例中,所述基于所述文本向量集与所述词向量集,生成特征融合向量集的步骤,包括:
15、将每个所述词向量组合中的词向量进行维度转换,获得维度转换词向量,其中,每个所述维度转换词向量的维度与其对应的文本向量维度相同;
16、计算所述汉字组合中每个汉字组合的权重;
17、基于所述维度转换词向量和所述权重,获得每个所述目标字的加权词向量;
18、根据每个所述目标纠正字的加权词向量,获得所述输入文本的词向量集;
19、将所述词向量集与所述文本向量集融合,生成特征融合向量集。
20、在一些实施例中,所述维度转换词向量由以下公式计算获得:
21、
22、其中,为输入文本中第i个目标纠正字的第j个汉字组合对应的维度转换词向量;为输入文本中第i个目标纠正字的第j个汉字组合对应的词向量;w1、w2、b1和b2为预设值。
23、在一些实施例中,所述汉字组合中每个汉字组合的权重由以下公式获得:
24、
25、其中,aij为所述输入文本中的第i个目标纠正字的第j个汉字组合的权重,hi为所述输入文本中的第i个目标纠正字的文本向量,为所述输入文本中的第i个目标纠正字的维度转换词向量组合,wat为预设值。
26、在一个实施例中,每个所述目标纠正字的加权词向量由以下公式获得:
27、
28、其中,为所述输入文本中的第i个目标纠正字的加权词向量,aij为所述输入文本中的第i个目标纠正字的第j个汉字组合的权重,为输入文本中第i个目标纠正字的第j个汉字组合对应的维度转换词向量,n为汉字组合的个数,其中n为预设值。
29、在一些实施例中,所述错别字纠正模型包括至少一个转换层和字符预测层,所述错别字纠正模型的训练步骤,包括:
30、获取错别字纠正训练语料;
31、获取词表和与所述词表中每一元素对应的词向量;
32、基于所述错别字纠正训练语料、所述词表和所述词向量,获得多个所述特征融合向量集作为训练样本;
33、将所述特征融合向量集输入其中一个所述转换层,生成引入词语信息的文本向量集;
34、将所述引入词语信息的文本向量集输入所述字符预测层,获得所述输入文本中每一汉字的待替换汉字集和所述待替换汉字集中所有待替换汉字的概率分布;
35、基于所述待替换汉字集中所有待替换汉字的概率分布,通过交叉熵损失计算所述错别字纠正模型的损失函数值;
36、根据所述损失函数值调整所述错别字纠正模型的参数直至输入训练样本后获得的所述损失函数值均小于预设损失函数值。
37、本申请还提供一种引入词语信息的错别字纠正装置,包括:
38、输入文本获取模块,用于获取待纠正的输入文本;
39、文本向量集获取模块,用于基于文本向量转换模型,将所述输入文本转换为文本向量集;
40、词向量集获取模块,用于基于预先生成的词表及所述词表中每一元素对应的词向量,获取所述输入文本的词向量集;
41、特征融合向量集生成模块,用于基于所述文本向量集与所述词向量集,生成特征融合向量集;
42、预测结果获取模块,用于将所述特征融合向量集输入预训练的错别字纠正模型,获得预测结果集,其中,所述预测结果集为所述输入文本中所有汉字对应的待替换汉字集中的各汉字的概率分布,待替换汉字集中包括至少一个可能用于替换所述输入文本中其中一个汉字的待替换字的集合;
43、正确文本获取模块,用于基于所述预测结果集获得与所述输入文本对应的正确文本。
44、本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例提供的引入词语信息的错别字纠正方法的步骤。
45、本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例提供的引入词语信息的错别字纠正方法中的步骤。
46、本申请所提供的一种引入词语信息的错别字纠正方法、装置和计算机设备,获取待纠正的输入文本;获取待纠正的输入文本;基于文本向量转换模型,将所述输入文本转换为文本向量集;基于预先生成的词表及所述词表中每一元素对应的词向量,获取所述输入文本的词向量集;基于所述文本向量集与所述词向量集,生成特征融合向量集;将所述特征融合向量集输入预训练的错别字纠正模型,获得预测结果集,其中,所述预测结果集为所述输入文本中所有汉字对本文档来自技高网...
【技术保护点】
1.一种引入词语信息的错别字纠正方法,其特征在于,包括:
2.根据权利要求1所述的引入词语信息的错别字纠正方法,其特征在于,所述基于预先生成的词表及所述词表中每一元素对应的词向量,获取所述输入文本的词向量集的步骤,包括:
3.根据权利要求2所述的引入词语信息的错别字纠正方法,其特征在于,所述基于所述文本向量集与所述词向量集,生成特征融合向量集的步骤,包括:
4.根据权利要求3所述的引入词语信息的错别字纠正方法,其特征在于,所述维度转换词向量由以下公式计算获得:
5.根据权利要求3所述的引入词语信息的错别字纠正方法,其特征在于,所述汉字组合中每个汉字组合的权重由以下公式获得:
6.根据权利要求3所述的引入词语信息的错别字纠正方法,其特征在于,每个所述目标纠正字的加权词向量由以下公式获得:
7.根据权利要求1所述的引入词语信息的错别字纠正方法,其特征在于,所述错别字纠正模型包括至少一个转换层和字符预测层,所述错别字纠正模型的训练步骤,包括:
8.一种引入词语信息的错别字纠正装置,其特征在于,包括:
...【技术特征摘要】
1.一种引入词语信息的错别字纠正方法,其特征在于,包括:
2.根据权利要求1所述的引入词语信息的错别字纠正方法,其特征在于,所述基于预先生成的词表及所述词表中每一元素对应的词向量,获取所述输入文本的词向量集的步骤,包括:
3.根据权利要求2所述的引入词语信息的错别字纠正方法,其特征在于,所述基于所述文本向量集与所述词向量集,生成特征融合向量集的步骤,包括:
4.根据权利要求3所述的引入词语信息的错别字纠正方法,其特征在于,所述维度转换词向量由以下公式计算获得:
5.根据权利要求3所述的引入词语信息的错别字纠正方法,其特征在于,所述汉字组合中每个汉字组合的权重由以下公式获得:
6.根据权利要求3所述的引入词语信息...
【专利技术属性】
技术研发人员:刘旺旺,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。