System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及文本处理,特别是涉及一种文本校正方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、在生产生活环境中,通常遇到不同文本对同一事物表述不一致、需要校正大量文本数据的情况。
2、传统技术中,针对此问题的主要处理方式为通过预先构建的近义词映射关系,对文本进行校正处理。然而,这种方式受限于用户预设的近义词映射关系,对文本的校正处理较为片面,且无法处理意义相近,但是字符结构差异较大甚至完全不同的情况,进而造成文本校正的准确率较低的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高文本校正的准确率的文本校正方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种文本校正方法,包括:
3、根据待校正文本的分词与预设规范词语之间的编辑距离,从所述分词中识别出所述待校正文本中的第一待校正词语;
4、根据所述预设规范词语,对所述待校正文本中的第一待校正词语进行校正,得到所述待校正文本的初始校正文本;
5、根据所述初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本;所述第二待校正词语为所述初始校正文本中除所述第一待校正词语的校正词语之外的词语。
6、在其中一个实施例中,所述根据待校正文本的分词与预设规范词语之间的编辑距离,从所述分词中识别出所述待校正文本中的第一
7、针对任一分词,将与所述任一分词之间的编辑距离最小的预设规范词语,作为所述任一分词的候选校正词语;
8、根据所述任一分词和所述候选校正词语之间的编辑距离,以及所述任一分词的字数,确定出所述任一分词的目标编辑比例;所述目标编辑比例用于表示将所述任一分词校正为所述候选校正词语时所对应的编辑比例;
9、在所述目标编辑比例小于或等于预设编辑比例阈值的情况下,将所述任一分词确定为所述待校正文本中的第一待校正词语;
10、所述根据所述预设规范词语,对所述待校正文本中的第一待校正词语进行校正,得到所述待校正文本的初始校正文本,包括:
11、将所述第一待校正词语校正为所述候选校正词语,得到所述待校正文本的初始校正文本。
12、在其中一个实施例中,在根据所述初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本之前,还包括:
13、确定所述初始校正文本中的第二待校正词语,以及根据所述初始校正文本的分词之间的相邻关系,构建所述初始校正文本的词语网络;
14、根据所述词语网络、预设规范词向量和预先训练的词向量模型,得到所述第二待校正词语的词向量;所述预设规范词向量为所述预设规范词语对应的词向量;
15、根据所述第二待校正词语的词向量和所述预设规范词向量,确定所述第二待校正词语与所述预设规范词语之间的相似度。
16、在其中一个实施例中,所述根据所述词语网络、预设规范词向量和预先训练的词向量模型,得到所述第二待校正词语的词向量,包括:
17、在所述词语网络中,确定出与所述第二待校正词语具有连接关系,且属于所述预设规范词语的分词,作为所述第二待校正词语的相邻规范词语;
18、从所述预设规范词向量中,确定出所述相邻规范词语的词向量;
19、将所述相邻规范词语的词向量,输入所述预先训练的词向量模型中,得到所述第二待校正词语的词向量。
20、在其中一个实施例中,在根据所述词语网络、预设规范词向量和预先训练的词向量模型,得到所述第二待校正词语的词向量之前,还包括:
21、从所述词语网络中筛选出属于所述预设规范词语的分词,作为样本词语;
22、从所述词语网络中,确定出与所述样本词语具有连接关系,且属于所述预设规范词语的分词,作为所述样本词语的相邻规范词语;
23、将所述样本词语的相邻规范词语的词向量,输入待训练的词向量模型中,得到所述样本词语的预测词向量;
24、根据所述样本词语的预测词向量和所述样本词语的真实词向量,对所述待训练的词向量模型进行迭代训练,得到所述预先训练的词向量模型;所述样本词语的相邻规范词语的词向量和所述样本词语的真实词向量,均通过查询所述预设规范词向量得到。
25、在其中一个实施例中,所述根据所述初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本,包括:
26、从所述预设规范词语中,确定出与所述第二待校正词语之间的相似度最高的目标规范词语;
27、在所述第二待校正词语与所述目标规范词语之间的相似度大于预设相似度阈值的情况下,将所述初始校正文本中的第二待校正词语校正为所述目标规范词语,得到所述待校正文本的目标校正文本。
28、在其中一个实施例中,在根据所述初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本之前,还包括:
29、从所述初始校正文本的词语网络中,筛选出具有相同连接关系的任意两个分词;
30、在所述任意两个分词中的第一分词属于所述预设规范词语,且第二分词不属于所述预设规范词语的情况下,将所述初始校正文本中的所述第二分词校正为对应的所述第一分词,得到处理后的初始校正文本;
31、所述根据所述初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本,还包括:
32、根据所述处理后的初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述处理后的初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本;所述处理后的初始校正文本中的第二待校正词语,为所述处理后的初始校正文本中除所述第一待校正词语的校正词语和所述第一分词之外的词语。
33、第二方面,本申请还提供了一种文本校正装置,包括:
34、词语识别模块,用于根据待校正文本的分词与预设规范词语之间的编辑距离,从所述分词中识别出所述待校正文本中的第一待校正词语;
35、第一校正模块,用于根据所述预设规范词语,对所述待校正文本中的第一待校正词语进行校正,得到所述待校正文本的初始校正文本;
36、第二校正模块,用于根据所述初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本;所述第二待校正词语为所述初始校正文本中除所述第一待校正词语的校正词语之外的词语。
37本文档来自技高网...
【技术保护点】
1.一种文本校正方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据待校正文本的分词与预设规范词语之间的编辑距离,从所述分词中识别出所述待校正文本中的第一待校正词语,包括:
3.根据权利要求1所述的方法,其特征在于,在根据所述初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本之前,还包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述词语网络、预设规范词向量和预先训练的词向量模型,得到所述第二待校正词语的词向量,包括:
5.根据权利要求3所述的方法,其特征在于,在根据所述词语网络、预设规范词向量和预先训练的词向量模型,得到所述第二待校正词语的词向量之前,还包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本,包括:
7.根据权利要求
8.一种文本校正装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种文本校正方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据待校正文本的分词与预设规范词语之间的编辑距离,从所述分词中识别出所述待校正文本中的第一待校正词语,包括:
3.根据权利要求1所述的方法,其特征在于,在根据所述初始校正文本中的第二待校正词语与所述预设规范词语之间的相似度,对所述初始校正文本中的第二待校正词语进行校正,得到所述待校正文本的目标校正文本之前,还包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述词语网络、预设规范词向量和预先训练的词向量模型,得到所述第二待校正词语的词向量,包括:
5.根据权利要求3所述的方法,其特征在于,在根据所述词语网络、预设规范词向量和预先训练的词向量模型,得到所述第二待校正词语的词向量之前,还包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述初始校正文本中的第二待校正词语与所述...
【专利技术属性】
技术研发人员:凌笑铃,罗佳,池炜成,张金娟,李忠航,
申请(专利权)人:中国电信股份有限公司技术创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。