当前位置: 首页 > 专利查询>中南大学专利>正文

基于SIMD优化的网页去重并行方法技术

技术编号:6026638 阅读:322 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于SIMD优化的网页去重并行方法,包括以下步骤:步骤1:网页文本信息提取步骤:该过程用于将网页有效信息提取出来;步骤2:Shingle提取步骤:该过程用于提取网页特征,并生成Shingles集合;步骤3:聚类步骤:该过程用于降低比对次数,减小时间和空间复杂度;步骤4:指纹比对步骤:该过程用于寻找出相似网页,将相似的网页剔除。该基于SIMD优化的网页去重并行方法能在保证查准率和查全率的同时,有效地提高网页相似度检测的速率。

【技术实现步骤摘要】
基于SIMD优化的网页去重并行方法
本专利技术属于计算机应用
,涉及一种基于MMD优化的网页去重并行方 法。MMD (Single Instruction Multiple Data,单指令多数据流)是一种采用一个控制器来 控制多个处理器,同时对一组数据(又称“数据向量”)中的每一个分别执行相同的操作 从而实现空间上的并行性的技术。在微处理器中,单指令流多数据流技术则是一个控制 器控制多个平行的处理微元,例如Intel的MMX或SSE以及AMD的3D Now !技术。技术背景随着计算机科学技术与网络技术的飞速发展,网络已经成为人们获取重要信息 的重要途径。目前搜索引擎面临的最大困难就是返回的结果集包含了大量重复的信息, 这些重复的信息不但占用了用户的大量时间加重了用户的负担,同时也占用了大量的存 储空间和带宽,降低了索引的效率。因此,如何对搜索引擎结果集进行分类或者网页去 重成为了提高搜索引擎检索效率的重要环节。基于“近似指纹”的网页去重算法,由于将文本的字符串映射到hash值集合, 将字符串匹配的问题转化成数值比较的问题,计算速度快,适合大规模运算。但是,在 文本块大小和数量的选择存在诸多困难,最完整的文本块是文本全文当作一个文本块, 这样的文本比较只能检测出一字不漏的文本复制,这种方法只能解决“一字不漏”的复 制问题。基于“Shingle”相似度检测算法通过把文本分词,提取shingle特征,比较共同 shingle的数目来计算相似度。算法需要考虑相似度阈值、shingle滑动窗口大小、shingle 权重系数和论文属性等参数对网页去重算法的准确率和召回率的影响,并且消除相似度 阈值设定的盲目性。Streaming SIMD Extensions SSE4.2是 hitel 自从 SSE2 之后对 ISA 扩展指令集最大的一次的升级扩展。SSE4.2的新指令面向了两大领域,分别是字符串与字符处理用 的新指令STTNI和面向具体应用的加速处理ΑΤΑ。新指令集增强了从多媒体应用到高性 能计算应用领域的性能,同时还利用一些专用电路实现对于特定应用加速。本专利技术依据 "Intel Core i7"系列处理器的体系结构优化代码,采用嵌入汇编SSE编码方式,以保证 同时一次比对1 位的指纹。分析实验和实际应用表明此算法能在不损失任何保证查 准率和查全率的同时,有效地提高文档相似度检测的速率。
技术实现思路
本专利技术的目的是提出一种基于^tMD优化的网页去重并行方法,该基于SIMD优 化的网页去重并行方法能在高查准率和高查全率的同时,有效地提高网页相似度检测的 速率。本专利技术的技术解决方案如下一种基于^IMD优化的网页去重并行方法,其特征在于,包括以下步骤步骤1 网页文本信息提取步骤该过程用于将网页有效信息提取出来;5步骤2 Shingle提取步骤该过程用于提取网页特征,并生成Shingles集合;步骤3:聚类步骤该过程用于降低比对次数,减小时间和空间复杂度;步骤4:指纹比对步骤该过程用于寻找出相似网页,将相似的网页剔除。步骤1的具体步骤为对HTML、XHTML、XML网页格式的文件进行扫描,利用网页的标记信息提取出文本的标题,同时过滤掉与文本无关的信息。步骤2的具体步骤为首先,对提取的网页文本信息进行正向最大匹配分词处理,生成词语的集合;然后,构建停用词表,并使用停用词表过滤掉网页中的噪音,按设定的窗口大 小,生成Shingles集合;噪音即词语的集合中所存在的无意义的词。正向最大匹配分词算法的主要流程如下假设自动分词词库中的最长词条中汉 字个数为MAX,则取待处理文本中的前MAX个字作为匹配字段,查找分词词库,若词 库中有这样一个MAX字词,则匹配成功,匹配字段作为一个词被切分出来;如果词库中 找不到这样一个MAX字词,则匹配失败,把此匹配字段的最后一个字去掉,重复以上过 程,直到匹配成功为止。这样就完成了一次匹配,即匹配出一个词。然后再按上面的步 骤进行下去,直到切分出文本中的所有词为止。从查准率和查全率来说,窗口大小越小越好;从显示效果来看,窗口大小越 大,显示的效果越好。一般情况下窗口取2-4为宜。步骤3的具体步骤为首先,对于生成的Shingle集合,设Shingle集合大小为L,从Shingle集合中每 隔 L/n 个 Shingle 选择 1 个 Shingle 作为其采样表 Sample_Shingle_List ;然后,对Sample_Shingle_List使用M个不同的独立随机的置换Hash函数,采用 的Hash函数将SampleJWngle_List中的所有shingle的特征分别转换为一个1 位的指纹 集合Sample_Finger_List,从每个Sample_Finger_List中选择最小的指纹作为该网页的指 纹;最后,对于N个网页生成的指纹进行聚类,聚类时,将具有相同指纹的网页划 归为一类,最终得到聚类后的网页集合。M取7-10之间的整数。采用M个独立随机的置换哈希(即Hash)函数Ji1, Ji2, ..., π M,就把任意一 个文档(Kdocument)的 Sample_Shingle_List 集合即 & 转换为 Sample_Finger_List Sample_Finger_List = (min{ π j (Sd) }, min{ π 2 (Sd) }, ..., min{ π M(Sd) })举个例子Ω = {1,2,3,4,5},Sl = {1,2,3},S2 = {1,2,4},Ω 表示全集。π 1{1, 2,3,4,5}-> {3,2,1,5,4},π 1表示M个独立随机的置换哈希 函数中的一个。Ji 2{1, 2,3,4,5}-> {2,3,5,4,1}...JIM{1, 2,3,4,5}-> {5,3,1,2,4}Ji I(Sl) = {3, 2,1} ; Ji 2(S1) = {2, 3,5} ; JiM(Sl) = {5, 3,1};Ji 1(S2) = {3, 2,5} ; Ji 2 (S2) = {2, 3,4} ; JiM(S2) = {5, 3,2};311是{1,2,3,4,5}-> {3,2,1,5,4}则就是1- > 3,2- > 2,3- > 1,4_ > 5,5_ > 4,贝Ij π 1 (Si) = Ji 1 ({1,2,3})= {3, 2, 1}其他的类推。min(3i (Si)) = Sample_Finger_List(Sl) = {1, 2,1}min( π 61))表示在每个集合Ji 1 61),Ji 2 (Si),…,πΜ^Ι)中分别取一个最小值,由这些最小值组成的集合。min(3i (S2)) = Sample_Finger_List(S2) = {2,2,2}然后他们具有相同的指纹丨2丨,则归为一类。因为它们都有丨2丨这个元素。步骤4的具体步骤为根据聚类结果,将每一个类中的网页ID取出,设该类有η个网页,对于所有的 网页的指纹集合为^fingerll Jinger2l ... JingernlΓ π ….fingerl2 finger22本文档来自技高网
...

【技术保护点】
一种基于SIMD优化的网页去重并行方法,其特征在于,包括以下步骤:步骤1:网页文本信息提取步骤:该过程用于将网页有效信息提取出来;步骤2:Shingle提取步骤:该过程用于提取网页特征,并生成Shingles集合;步骤3:聚类步骤:该过程用于降低比对次数,减小时间和空间复杂度;步骤4:指纹比对步骤:该过程用于寻找出相似网页,将相似的网页剔除。

【技术特征摘要】

【专利技术属性】
技术研发人员:龙军张祖平袁鑫攀罗跃逸
申请(专利权)人:中南大学
类型:发明
国别省市:43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1