一种大数据相似文本去重预处理方法、装置及终端设备制造方法及图纸

技术编号：28674763 阅读：11 留言：0更新日期：2021-06-02 02:51

本发明专利技术公开了一种大数据相似文本去重预处理方法、装置及终端设备，该方法包括步骤1，对文本集合S中的每个文本T进行分词，并建立倒排索引，步骤2，筛选词语集合W中的词语出现的频数大于阈值的高频词语标记为关键词，步骤3，制定关键词属性v的生成规则并得到每个关键词的属性v，步骤4，根据文本集合S中文本的关键词属性v建立的B+树，对文本进行分类。通过对文本集合进行预处理，划分为子集后，减小计算范围的同时，可以并行计算相似度，减小相似度计算数据量，提高了相似文本去重计算的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据相似文本去重预处理方法、装置及终端设备
本专利技术涉及大数据文本处理研究领域，具体涉及一种大数据相似文本去重预处理方法、装置及终端设备。
技术介绍
随着互联网的普及和发展，网络中数据量与日俱增。因而，重复数据的产生也不可避免。为了减少数据冗余，提高检索效率和存储设备的利用率，对相似文本进行去重具有重大的意义。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：现有的文本去重的方案，大多是基于余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等，直接对大数据的海量文本进行比对，效率较低。
技术实现思路
为了克服现有技术的不足，本专利技术提供了一种大数据相似文本去重预处理方法、装置及终端设备，通过对文本集合进行预处理，划分为子集后，减小计算范围的同时，可以并行计算相似度，减小相似度计算数据量，提高了相似文本去重计算的效率。技术方案如下：提供了一种大数据相似文本去重预处理方法，该方法包括如下步骤：步骤1，文本总数为n，假设每个文本T长度类似，长度平均值为L，文本全集S={Ti|i∈[1，n]}，对文本集合S中的每个文本T进行分词，把分词后的词语进行清洗得到词语集合W={Wi|i∈[1，m]，n≪m}，m是得到词语的总个数，根据分词建立倒排索引，若文本某一个关键词出现多次，词语集合W中只记录一次，建立倒排索引后，可以根据词语集合W中的词语快速找到包含这个词语的文本。步骤2，统计词语集合W中的词语在文本全集S中出现的频数，设置频数阈值t，若词

【技术保护点】
1.一种大数据相似文本去重预处理方法，其特征在于，该方法包括如下步骤：/n步骤1，文本总数为n，假设每个文本T长度类似，长度平均值为L，文本全集S={T

【技术特征摘要】
1.一种大数据相似文本去重预处理方法，其特征在于，该方法包括如下步骤：
步骤1，文本总数为n，假设每个文本T长度类似，长度平均值为L，文本全集S={Ti|i∈[1，n]}，对文本集合S中的每个文本T进行分词，把分词后的词语进行清洗得到词语集合W={Wi|i∈[1，m]，n≪m}，m是得到词语的总个数，根据分词建立倒排索引，若文本某一个关键词出现多次，词语集合W中只记录一次，建立倒排索引后，可以根据词语集合W中的词语快速找到包含这个词语的文本；
步骤2，统计词语集合W中的词语在文本全集S中出现的频数，设置频数阈值t，若词语集合W中的词语出现的频数在文本集合S中大于t，将这些高频词语标记为关键词，记为集合K={Ki|i∈[1，m’]，K⊆W}，m’为高频词语的个数，即关键词个数，集合K是集合W的某一子集，K是有序集合；
步骤3，根据关键词集合K中的元素，遍历倒排索引，为文本集合S中的每个文本生成关键词属性值v，即文本集合S中的任一文本都有唯一关键词属性值与之对应；
关键词属性v的生成规则：
定义一个函数,g(Ki)=2(i-1)，1≤i≤m’，
文本Ti中包含的关键词集合为：

，
Ksub⊆K，A为文本Ti中的关键词个数；
所以Ti的关键词属性值：

；
步骤4，根据文本集合S中文本的关键词属性v建立的B+树，对文本进行分类，使得关键词属性v相同的文本对应到B+树中的同一个叶子节点关键字；
在去重操作时，可以快速查找到特定关键词组合的所有文本，在这组文本上进行相似度计算，根据实际需要来保留和去除相似文本。

2.根据权利要求1所述的一种大数据相似文本去重预处理方法，其特征在于，步骤1中，把分词后的词语进行清洗为：去掉标点符号、无实际意义的词、停用词处理。

3.根据权利要求1所述的一种大数据相似文本去重预处理方法，其特征在于，步骤2中，K是有序集合指：K中关键词按字典顺序排...

【专利技术属性】
技术研发人员：窦锦鹏，周金明，孙良良，
申请(专利权)人：南京视察者智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人