当前位置: 首页 > 专利查询>鹏城实验室专利>正文

一种大规模长文本数据的近似重复检测方法、系统及终端技术方案

技术编号:33199881 阅读:26 留言:0更新日期:2022-04-24 00:34
本发明专利技术公开了一种大规模长文本数据的近似重复检测方法、系统及终端,通过将传统数据库中的倒排索引结构引入到分布式计算框架中,实现了文档相似检测的分布式分区,并且通过倒排表分区方式实现Simhash技术的分布式计算,为其带来可扩展性,最后通过在计算过程中嵌入传统数据库领域的前缀剪枝技术,来进一步减少分布式重复检测过程中倒排分区的通讯读写代价和simhash计算的验证代价。价和simhash计算的验证代价。价和simhash计算的验证代价。

【技术实现步骤摘要】
一种大规模长文本数据的近似重复检测方法、系统及终端


[0001]本专利技术涉及数据处理
,尤其涉及一种大规模长文本数据的近似重复检测方法、系统、终端及计算机可读存储介质。

技术介绍

[0002]大规模预训练模型需要大量的高质量文本语料数据作为训练样本,这些文本语料大都是自爬取或收集于各种不同的数据源,这些数据中存在着大量的冗余信息,即便是同样的内容,在不同数据源之间和统一数据源的不同板块,可能因为编辑问题、表达方式问题、或简单转载修改有所不同。例如,不同媒体报道的同一条新闻,可能仅表达方式、抬头或标点有所差异,但实际内容大多相同,这样的相似情况相比完全重复更为普遍,且难以通过直接的相等比较方法进行判定。训练样本需要获得高质量的数据就需要消除这些冗余信息以避免模型意外地过度学习相似度比较高的内容,首先就得识别出这些相似文档。
[0003]近似检测的文档之间并不是完全相等的,朴素的方式需要两两比较所有文档,计算量相当于笛卡尔积,且长文档的两两字符串比较本身也比较耗时,计算量巨大。现在行业内对于近似重复检测的方法主要是基于近似阈值的相似本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种大规模长文本数据的近似重复检测方法,其特征在于,所述大规模长文本数据的近似重复检测方法包括:读取语料数据作为原始输入文档,对所述原始输入文档进行处理后得到包括文档全局编号的第一处理文档,对所述原始输入文档分割成单词集合后得到第二处理文档,将所述第二处理文档进行转换处理后结合所述第一处理文档中文档的全局编号得到第三处理文档;将所述第三处理文档进行展开单词集合处理得到第四处理文档,将所述第四处理文档中单词编码相同的元组进行合并,并对词频进行求和后得到第五处理文档,汇聚各分区过滤后的词表形成第六处理文档;将所述第三处理文档执行转换处理,根据单词集合进行指纹计算,并根据词频和文档的总数得到IDF权重,计算得到每个文档对应指纹,构成第七处理文档;将所述第七处理文档执行转换处理,将单词数组中的单词按照所述第六处理文档中的词频从小到大排序,形成第八处理文档,遍历前缀单词数组中的每个单词,按照预设方式进行操作展开形成第九处理文档;将所述第九处理文档按照单次编码分组,形成第十处理文档,对所述第十处理文档中的每个分组中的特定指纹采用海明距离进行相似度验证,每个分区独立进行分布式并行计算,得到满足相似度条件的重复记录对,得到真实的重复文档检测结果。2.根据权利要求1所述的大规模长文本数据的近似重复检测方法,其特征在于,所述读取语料数据作为原始输入文档,对所述原始输入文档进行处理后得到包括文档全局编号的第一处理文档,对所述原始输入文档分割成单词集合后得到第二处理文档,将所述第二处理文档进行转换处理后结合所述第一处理文档中文档的全局编号得到第三处理文档,具体包括:从外部存储上读取语料数据作为原始输入文档;将所述原始输入文档执行ZipWithIndex操作后得到文档的全局编号,形成第一处理文档;采用分词工具将所述原始输入文档分割成单词集合,每个文档转为单词数组,同一个文档中的重复单词在单词数组中仅记录一次,得到第二处理文档;将所述第二处理文档进行Map转换处理,根据MurmurHash算法将单词从String类型转换为64Bit的特征编码,用Long类型记录,结合所述第一处理文档中文档的全局编号得到第三处理文档。3.根据权利要求2所述的大规模长文本数据的近似重复检测方法,其特征在于,所述原始输入文档为Spark的弹性分布式数据集,数据集中实际存储的是原始输入文档集合,文档为字符串类型。4.根据权利要求2所述的大规模长文本数据的近似重复检测方法,其特征在于,所述将所述原始输入文档执行ZipWithIndex操作后得到文档的全局编号,形成第一处理文档,之后还包括:通过Spark的MemoryAndDisk对所述第一处理文档进行策略持久化,以将所述第一处理文档中的数据优先存储在内存上,当内存不够容纳的部分存储到磁盘上。5.根据权利要求2所述的大规模长文本数据的近似重复检测方法,其特征在于,所述将
所述第三处理文档进行展开单词集合处理得到第四处理文档,将所述第四处理文档中单词编码相同的元组进行合并,并对词频进行求和后得到第五处理文档,汇聚各分区过滤后的词表形成第六处理文档,具体包括:将所述第三处理文档执行FlatMap算子展开单词集合处理得到第四处理文档,并初始化所述第四处理文档中的词频;将所述第四处理文档执行ReduceByKey操作,将所述第四处理文档中单词编码相同的元组进行合并,并对词频进行求和,得到第五处理文档;采用CollectAsMap汇聚各分区过滤后的词表形成第六处理文档,并将所述第六处理文档广播到每个计算节点。6.根据权利要求5所述的大规模长文本数据的近似重复检测方法,其特征在于,所述第五处理文档和所述第六处理文档中的单词编码和词频均为Int类型。7.根据权利要求5所述的大规模长文本数据的近似重复检测方法,其特征在于,所述将所述第三处理文档执行转换处理,根据单词集合进行指纹计算,并根据词频和文档的总数得到IDF权重,计算得到每个文档对应指纹,构成第七处理文档,具体包括:将所述第三处理文档执行Map转换处理,根据64Bit哈希编码的单词集合进行Simhash的指纹计算,并根据词频和文档的总数得到IDF权重,计算公式为:其中,分子为总...

【专利技术属性】
技术研发人员:邓凌风王进邹安平刘泽雄闫超余跃曾炜
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1