System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机器学习,尤其涉及一种检验文本相似程度的方法、装置、设备及介质。
技术介绍
1、近年来,随着文本分类的数据集来越多,对于采集数据的质量要求也在不断提高。
2、目前需要采集的数据多来自实际场景和内部数据文件,这些数据大多存在重复性,相似度非常高的数据过多,此类数据对于深度学习的模型并没有带来很高的提升,且会造成在深度学习的文本分类训练中出现过拟合现象,为避免出现类似现象,需要对数据集的重复程度进行检验,并通过相似度来对数据集进行清洗,然而目前数据集清洗效果不佳,仍待改进。
技术实现思路
1、本专利技术提供了一种检验文本相似程度的方法、装置、设备及介质,以解决现有文本类数据集清洗效果不佳的问题。
2、根据本专利技术的一方面,提供了一种检验文本相似程度的方法,包括:
3、对待检验样本集中的文本进行向量化处理,得到文本向量特征集;
4、根据第一相似度算法、相似度阈值以及文本向量特征集,对待检验样本集中的各待检验样本子集进行相似样本剔除,得到各初筛待检验样本子集;
5、对待检验样本集进行分词处理,得到文本分词样本集,并根据文本分词样本集、第二相似度算法以及相似度阈值,对各初筛待检验样本子集进行相似样本剔除,得到各目标清洗样本子集。
6、根据本专利技术的另一方面,提供了一种检验文本相似程度的装置,包括:
7、向量化处理模块,用于对待检验样本集中的文本进行向量化处理,得到文本向量特征集;
9、第二相似样本剔除模块,用于对待检验样本集进行分词处理,得到文本分词样本集,并根据文本分词样本集、第二相似度算法以及相似度阈值,对各初筛待检验样本子集进行相似样本剔除,得到各目标清洗样本子集。
10、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
11、至少一个处理器;以及
12、与所述至少一个处理器通信连接的存储器;其中,
13、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的检验文本相似程度的方法。
14、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的检验文本相似程度的方法。
15、本专利技术实施例的技术方案,通过对待检验样本集中的文本进行向量化处理,得到文本向量特征集,从而根据第一相似度算法、相似度阈值以及文本向量特征集,对待检验样本集中的各待检验样本子集进行相似样本剔除,得到各初筛待检验样本子集,并对待检验样本集进行分词处理,得到文本分词样本集,并根据文本分词样本集、第二相似度算法以及相似度阈值,对各初筛待检验样本子集进行相似样本剔除,得到各目标清洗样本子集。在本方案中,从文本向量以及文本分词两个特征维度,对待检验样本集进行相似样本的识别剔除,实现了对待检验样本集中相似样本的有效清洗,解决了现有文本类数据集清洗效果不佳的问题,能够有效提升文本类数据集的清洗效果。
16、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种检验文本相似程度的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述对待检验样本集中的文本进行向量化处理之前,还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据第一相似度算法、相似度阈值以及所述文本向量特征集,对所述待检验样本集中的各待检验样本子集进行相似样本剔除,得到各初筛待检验样本子集,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述文本分词样本集、第二相似度算法以及所述相似度阈值,对各所述初筛待检验样本子集进行相似样本剔除,得到各目标清洗样本子集,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一相似度算法以及所述文本向量特征集,分别计算各所述待检验样本子集的样本比对第一相似度,包括:
6.根据权利要求4所述的方法,其特征在于,所述根据所述文本分词样本集以及所述第二相似度算法,分别计算各所述初筛待检验样本子集的样本比对第二相似度,包括:
7.根据权利要求2所述的方法,其特征在于,在所述得到各目标清洗样本子集之后,还包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7任一项所述的检验文本相似程度的方法。
...【技术特征摘要】
1.一种检验文本相似程度的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述对待检验样本集中的文本进行向量化处理之前,还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据第一相似度算法、相似度阈值以及所述文本向量特征集,对所述待检验样本集中的各待检验样本子集进行相似样本剔除,得到各初筛待检验样本子集,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述文本分词样本集、第二相似度算法以及所述相似度阈值,对各所述初筛待检验样本子集进行相似样本剔除,得到各目标清洗样本子集,包括:
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一相似度算法以及所述...
【专利技术属性】
技术研发人员:孙武,昝云飞,徐红,高翔,纪达麒,陈运文,
申请(专利权)人:达而观科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。