一种大数据相似文本去重预处理方法、装置及终端设备制造方法及图纸

技术编号:28674763 阅读:11 留言:0更新日期:2021-06-02 02:51
本发明专利技术公开了一种大数据相似文本去重预处理方法、装置及终端设备,该方法包括步骤1,对文本集合S中的每个文本T进行分词,并建立倒排索引,步骤2,筛选词语集合W中的词语出现的频数大于阈值的高频词语标记为关键词,步骤3,制定关键词属性v的生成规则并得到每个关键词的属性v,步骤4,根据文本集合S中文本的关键词属性v建立的B+树,对文本进行分类。通过对文本集合进行预处理,划分为子集后,减小计算范围的同时,可以并行计算相似度,减小相似度计算数据量,提高了相似文本去重计算的效率。

【技术实现步骤摘要】
一种大数据相似文本去重预处理方法、装置及终端设备
本专利技术涉及大数据文本处理研究领域,具体涉及一种大数据相似文本去重预处理方法、装置及终端设备。
技术介绍
随着互联网的普及和发展,网络中数据量与日俱增。因而,重复数据的产生也不可避免。为了减少数据冗余,提高检索效率和存储设备的利用率,对相似文本进行去重具有重大的意义。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:现有的文本去重的方案,大多是基于余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等,直接对大数据的海量文本进行比对,效率较低。
技术实现思路
为了克服现有技术的不足,本专利技术提供了一种大数据相似文本去重预处理方法、装置及终端设备,通过对文本集合进行预处理,划分为子集后,减小计算范围的同时,可以并行计算相似度,减小相似度计算数据量,提高了相似文本去重计算的效率。技术方案如下:提供了一种大数据相似文本去重预处理方法,该方法包括如下步骤:步骤1,文本总数为n,假设每个文本T长度类似,长度平均值为L,文本全集S={Ti|i∈[1,n]},对文本集合S中的每个文本T进行分词,把分词后的词语进行清洗得到词语集合W={Wi|i∈[1,m],n≪m},m是得到词语的总个数,根据分词建立倒排索引,若文本某一个关键词出现多次,词语集合W中只记录一次,建立倒排索引后,可以根据词语集合W中的词语快速找到包含这个词语的文本。步骤2,统计词语集合W中的词语在文本全集S中出现的频数,设置频数阈值t,若词语集合W中的词语出现的频数在文本集合S中大于t,将这些高频词语标记为关键词,记为集合K={Ki|i∈[1,m’],K⊆W},m’为高频词语的个数,即关键词个数,集合K是集合W的某一子集,K是有序集合。步骤3,根据关键词集合K中的元素,遍历倒排索引,为文本集合S中的每个文本生成关键词属性值v,即文本集合S中的任一文本都有唯一关键词属性值与之对应。关键词属性v的生成规则:定义一个函数,g(Ki)=2(i-1),1≤i≤m’,文本Ti中包含的关键词集合为:,Ksub⊆K,A为文本Ti中的关键词个数;所以Ti的关键词属性值:。步骤4,根据文本集合S中文本的关键词属性v建立的B+树,对文本进行分类,使得关键词属性v相同的文本对应到B+树中的同一个叶子节点关键字。在去重操作时,可以快速查找到特定关键词组合的所有文本,在这组文本上进行相似度计算,根据实际需要来保留和去除相似文本。优选的,步骤1中,把分词后的词语进行清洗为:去掉标点符号、无实际意义的词、停用词处理。优选的,步骤2中,K是有序集合指:K中关键词按字典顺序排序的有序集合。优选的,步骤2中,阈值t为:t=μn,0<μ<1,μ为常量,表示文本中词语文字的总长占据文本总长的比例阈值。优选的,步骤4中,B+树建立过程如下:B+树中存在两种节点,一种是叶子节点,一种是索引节点,索引节点只存放关键字,叶子节点存放数据,根结点可以是叶子节点也可以是索引节点。(1)遍历S中的文本,每个文本对应一个v值,将其作为关键字插入到B+树中。(2)B+树节点插入过程如下:假设B+树阶数为x,节点内关键字个数的范围[⌈x/2⌉,x]。插入过程始终在叶子节点操作,并且不能破坏关键字自小到大的顺序。1)若为空树,则生成一个叶子节点并插入关键字,当前叶子节点也是根节点,结束。2)否则,对于叶子节点,若当前插入的叶子节点插入关键字后,关键字个数小于等于x,则结束,否则,当前叶子节点分裂成左右两个叶子节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字,将右节点第1个关键字上升到父节点,并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点。3)对于索引节点,若当前节点指针关键字个数小于等于x,则结束,否则,分裂成左右两个索引节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字,将右节点第1个关键字上升到父节点,并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点;重复步骤3)。与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过把文本全集S划分为若干子集,原先在全集上的相似度计算操作被转移到子集上,相似度计算一般是两个文本为一组进行比较,所以划分为子集后,减小范围的同时,可以并行计算相似度,提高了相似文本去重计算的效率。具体实施方式为了阐明本专利技术的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。第一方面,本公开实施例提供了一种大数据相似文本去重预处理方法,该方法包括如下步骤:步骤1:文本总数为n,假设每个文本T长度类似,长度平均值为L,文本全集S={Ti|i∈[1,n]},对文本集合S中的每个文本T进行分词,把分词后的词语进行清洗(优选的,把分词后的词语进行清洗为:去掉标点符号、无实际意义的词、停用词处理),得到词语集合W={Wi|i∈[1,m],n≪m},m是得到词语的总个数,根据分词建立倒排索引,若文本某一个关键词出现多次,词语集合W中只记录一次,建立倒排索引后,可以根据词语集合W中的词语快速找到包含这个词语的文本。步骤2:统计词语集合W中的词语在文本全集S中出现的频数,设置频数阈值t,若词语集合W中的词语出现的频数在文本集合S中大于t,将其标记为高频关键词,记为集合K={Ki|i∈[1,m’],K⊆W},m’为高频词语的个数,即关键词个数,集合K是集合W的某一子集,K是有序集合,优选的,K是有序集合指:K中关键词按字典顺序排序的有序集合。优选的,阈值t为:t=μn,(0<μ<1),μ为常量,表示文本中词语文字的总长占据文本总长的比例阈值。若t值太小,可能存在两个文本A、B,使得文本A、B的Jaccard相似度J(A,B)=|A∩B|/|A∪B|过小,即文本A、B只包含少量公共文本,此时我们计算两个文本的相似度可能没有意义。步骤3根据关键词集合K中的元素,遍历倒排索引,为文本集合S中的每个文本生成关键词属性值v,即文本集合S中的任一文本都有唯一关键词属性值与之对应。关键词属性v的生成规则:定义一个函数,g(Ki)=2(i-1),1≤i≤m’,g(Ki)根据关键词Ki在原集合K中的顺序得到一个数值,转化成二进制数时表示从右往左第i位数为1,其余位为0。文本Ti中包含的关键词集合为:...

【技术保护点】
1.一种大数据相似文本去重预处理方法,其特征在于,该方法包括如下步骤:/n步骤1,文本总数为n,假设每个文本T长度类似,长度平均值为L,文本全集S={T

【技术特征摘要】
1.一种大数据相似文本去重预处理方法,其特征在于,该方法包括如下步骤:
步骤1,文本总数为n,假设每个文本T长度类似,长度平均值为L,文本全集S={Ti|i∈[1,n]},对文本集合S中的每个文本T进行分词,把分词后的词语进行清洗得到词语集合W={Wi|i∈[1,m],n≪m},m是得到词语的总个数,根据分词建立倒排索引,若文本某一个关键词出现多次,词语集合W中只记录一次,建立倒排索引后,可以根据词语集合W中的词语快速找到包含这个词语的文本;
步骤2,统计词语集合W中的词语在文本全集S中出现的频数,设置频数阈值t,若词语集合W中的词语出现的频数在文本集合S中大于t,将这些高频词语标记为关键词,记为集合K={Ki|i∈[1,m’],K⊆W},m’为高频词语的个数,即关键词个数,集合K是集合W的某一子集,K是有序集合;
步骤3,根据关键词集合K中的元素,遍历倒排索引,为文本集合S中的每个文本生成关键词属性值v,即文本集合S中的任一文本都有唯一关键词属性值与之对应;
关键词属性v的生成规则:
定义一个函数,g(Ki)=2(i-1),1≤i≤m’,
文本Ti中包含的关键词集合为:


Ksub⊆K,A为文本Ti中的关键词个数;
所以Ti的关键词属性值:


步骤4,根据文本集合S中文本的关键词属性v建立的B+树,对文本进行分类,使得关键词属性v相同的文本对应到B+树中的同一个叶子节点关键字;
在去重操作时,可以快速查找到特定关键词组合的所有文本,在这组文本上进行相似度计算,根据实际需要来保留和去除相似文本。


2.根据权利要求1所述的一种大数据相似文本去重预处理方法,其特征在于,步骤1中,把分词后的词语进行清洗为:去掉标点符号、无实际意义的词、停用词处理。


3.根据权利要求1所述的一种大数据相似文本去重预处理方法,其特征在于,步骤2中,K是有序集合指:K中关键词按字典顺序排...

【专利技术属性】
技术研发人员:窦锦鹏周金明孙良良
申请(专利权)人:南京视察者智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1