System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及一种文本去重方法、装置、电子设备及存储介质。
技术介绍
1、随着大数据等技术的发展,互联网中充斥着越来越多的文本,并且存在大量的重复文本。重复文本不仅降低了整体的文本质量,还造成存储资源的大量浪费。
2、为了节约存储资源、提高整体文本质量,需要进行文本去重,目前的文本去重的过程包括:首先,使用word2vec、glove等词嵌入方法对输入文本的单词或短语进行向量化表示,得到每个文本对应的向量;其次,基于每个文本对应的向量,使用欧氏距离等方式计算两个文本之间的相似度;最后,根据相似度和预设去重决策阈值判断两个文本是否相似。
3、然而,如果文本存在嵌套重复的情况,即一个文本包含另一个文本时,文本去重的准确率较低。
技术实现思路
1、本公开提供了一种文本去重方法、装置、电子设备及存储介质。
2、根据本公开的一个方面,提供一种文本去重方法,包括:
3、获取待处理文本集;
4、分别获取所述待处理文本集中待处理文本之间的相似度;
5、根据所述待处理文本之间的相似度和预设第一阈值,从所述待处理文本集中获取第一文本集、第二文本集和第三文本集;
6、根据所述第一文本集、第二文本集和第三文本集获取去重文本集,
7、其中,所述第一文本集包括所述待处理文本集中与其他文本之间的相似度小于所述预设第一阈值的文本;
8、所述第二文本集包括指向第四文本集中其他文本的相似度小于所述预设第一阈值的文本
9、所述第三文本集包括至少一个第五文本集中最小相似度指向的文本,所述至少一个第五文本集是根据第六文本集中待处理文本之间的相似度获取的,所述第六文本集为所述第四文本集与所述第二文本集之差。
10、根据本公开的至少一个实施方式的文本去重方法,所述分别获取所述待处理文本集中待处理文本之间的相似度,包括:
11、根据静态词嵌入模型分别获取所述待处理文本集中待处理文本之间的相似度;或者,
12、根据动态词嵌入模型分别获取所述待处理文本集中待处理文本之间的相似度。
13、根据本公开的至少一个实施方式的文本去重方法,所述根据动态词嵌入模型分别获取所述待处理文本集中待处理文本之间的相似度,包括:
14、获取所述待处理文本集对应的文本处理指示;
15、分别将所述文本处理指示和所述待处理文本集中每个文本输入预先训练的第一动态词嵌入模型,得到第一文本矩阵;
16、分别将所述待处理文本集中每个文本输入预先训练的第二动态词嵌入模型,得到第二文本矩阵;
17、根据所述第一文本矩阵和第二文本矩阵分别获取所述待处理文本集中待处理文本之间的相似度。
18、根据本公开的至少一个实施方式的文本去重方法,在所述根据所述第一文本矩阵和第二文本矩阵分别获取所述待处理文本集中待处理文本之间的相似度之前,所述根据动态词嵌入模型分别获取所述待处理文本集中待处理文本之间的相似度,还包括:
19、分别对所述第一文本矩阵和所述第二文本矩阵进行归一化处理,得到第三文本矩阵和第四文本矩阵;
20、获取所述第四文本矩阵对应的转置文本矩阵;
21、将所述第三文本矩阵与所述转置文本矩阵相乘,得到相似度矩阵;
22、所述根据所述第一文本矩阵和第二文本矩阵分别获取所述待处理文本集中待处理文本之间的相似度,包括:根据所述相似度矩阵分别获取所述待处理文本集中待处理文本之间的相似度。
23、根据本公开的至少一个实施方式的文本去重方法,对于所述待处理文本集中任一文本,所述根据所述待处理文本之间的相似度和预设第一阈值,从所述待处理文本集中获取第一文本集、第二文本集和第三文本集,包括:
24、根据所述待处理文本之间的相似度,获取该文本与所述待处理文本集中其他文本之间的第一相似度;
25、判断该第一相似度是否小于所述预设第一阈值;
26、如果小于,将该文本加入所述第一文本集。
27、根据本公开的至少一个实施方式的文本去重方法,对于所述第四文本集中任一文本,所述根据所述待处理文本之间的相似度和预设第一阈值,从所述待处理文本集中获取第一文本集、第二文本集和第三文本集,包括:
28、判断该文本指向其他文本的相似度是否均小于所述第一阈值;
29、如果小于,将该文本加入所述第二文本集。
30、根据本公开的至少一个实施方式的文本去重方法,所述根据所述待处理文本之间的相似度和预设第一阈值,从所述待处理文本集中获取第一文本集、第二文本集和第三文本集,包括:
31、根据第六文本集中待处理文本之间的相似度获取至少一个第五文本集;
32、分别将每个第五文本集中最小相似度指向的文本加入所述第三文本集。
33、根据本公开的另一个方面,提供一种文本去重装置,包括:
34、待处理模块,用于获取待处理文本集;
35、相似模块,用于分别获取所述待处理文本集中待处理文本之间的相似度;
36、文本获取模块,用于根据所述待处理文本之间的相似度和预设第一阈值,从所述待处理文本集中获取第一文本集、第二文本集和第三文本集;
37、去重模块,用于根据所述第一文本集、第二文本集和第三文本集获取去重文本集,
38、其中,所述第一文本集包括所述待处理文本集中与其他文本之间的相似度小于所述预设第一阈值的文本;
39、所述第二文本集包括指向第四文本集中其他文本的相似度小于所述预设第一阈值的文本,所述第四文本集为所述待处理文本集与所述第一文本集之差;
40、所述第三文本集包括至少一个第五文本集中最小相似度指向的文本,所述至少一个第五文本集是根据第六文本集中待处理文本之间的相似度获取的,所述第六文本集为所述第四文本集与所述第二文本集之差。
41、根据本公开的另一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行本公开任一个实施方式的文本去重方法。
42、根据本公开的又一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现本公开任一个实施方式的文本去重方法。
本文档来自技高网...【技术保护点】
1.一种文本去重方法,其特征在于,包括:
2.根据权利要求1所述的文本去重方法,其特征在于,所述分别获取所述待处理文本集中待处理文本之间的相似度,包括:
3.根据权利要求2所述的文本去重方法,其特征在于,所述根据动态词嵌入模型分别获取所述待处理文本集中待处理文本之间的相似度,包括:
4.根据权利要求3所述的文本去重方法,其特征在于,
5.根据权利要求1至4中任意一项所述的文本去重方法,其特征在于,对于所述待处理文本集中任一文本,所述根据所述待处理文本之间的相似度和预设第一阈值,从所述待处理文本集中获取第一文本集、第二文本集和第三文本集,包括:
6.根据权利要求1至4中任意一项所述的文本去重方法,其特征在于,对于所述第四文本集中任一文本,所述根据所述待处理文本之间的相似度和预设第一阈值,从所述待处理文本集中获取第一文本集、第二文本集和第三文本集,包括:
7.根据权利要求1至4中任意一项所述的文本去重方法,其特征在于,所述根据所述待处理文本之间的相似度和预设第一阈值,从所述待处理文本集中获取第一文本集、第二文本集
8.一种文本去重装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时实现如权利要求1至7中任一项所述的文本去重方法。
...【技术特征摘要】
1.一种文本去重方法,其特征在于,包括:
2.根据权利要求1所述的文本去重方法,其特征在于,所述分别获取所述待处理文本集中待处理文本之间的相似度,包括:
3.根据权利要求2所述的文本去重方法,其特征在于,所述根据动态词嵌入模型分别获取所述待处理文本集中待处理文本之间的相似度,包括:
4.根据权利要求3所述的文本去重方法,其特征在于,
5.根据权利要求1至4中任意一项所述的文本去重方法,其特征在于,对于所述待处理文本集中任一文本,所述根据所述待处理文本之间的相似度和预设第一阈值,从所述待处理文本集中获取第一文本集、第二文本集和第三文本集,包括:
6.根据权利要求1至4中任意...
【专利技术属性】
技术研发人员:钱金阳,李志飞,
申请(专利权)人:上海墨百意信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。