一种统一资源定位符语义去重方法、装置、设备和介质制造方法及图纸

技术编号：19692165 阅读：42 留言：0更新日期：2018-12-08 11:16

本申请公开了一种统一资源定位符语义去重方法、装置、设备和介质。该方法包括：确定每个统一资源定位符URL的哈希值；基于每个URL的哈希值，划分若干个URL集合；其中，每个URL集合中的任意两个URL相似；构造每个URL集合的生成树；根据预先设置的分支数量阈值，对所述每个URL集合的生成树进行剪枝，得到所述每个URL集合剪枝后的生成树；遍历所述每个URL集合剪枝后的生成树，得到去重后的URL集合。根据本申请实施例的技术方案，能够有效减少被误删的URL数量。

全部详细技术资料下载

【技术实现步骤摘要】
一种统一资源定位符语义去重方法、装置、设备和介质
本公开涉及网络
，尤其涉及一种统一资源定位符(UniformResourceLocator，URL)语义去重方法、装置、设备和介质。
技术介绍
在Web应用中，不同的URL对应不同功能接口，提取这些URL是很多实际应用的首要工作，比如在安全渗透测试和URL页面流量统计中需要找出系统中存在的URL信息。在提取URL的过程中，对URL去重可以大幅度地减少冗余URL的数量，提高后续工作的效率。在对URL去重的过程中存在这样一种情况：A组URL列表：http://abc.com/yun/task/1http://abc.com/yun/task/2…http://abc.com/yun/task/100如上述A组URL列表所示，其中包含了100个URL，而实际上这100个URL只包含了1个接口http://abc.com/yun/task/，该接口后的1到100均为该接口的参数，像这种针对内容不同但是语义相同的URL去重过程称为URL语义去重。目前，URL语义去重主要采用基于Hash(哈希)的方法，然而由于基于Hash的方法对局部变化不敏感，因此会导致代表不同功能接口的URL会被误判为代表相同功能接口的URL。B组URL列表：http://abc.com/mat/puthttp://abc.com/mat/get如上述B组URL列表所示，其中包含了2个代表不同功能接口的URL。但是基于Hash的方法会判决B组URL列表中的2个URL为代表相同功能接口的URL。由此可见，目前的URL语义去重方法存在URL误判的...

【技术保护点】
1.一种统一资源定位符语义去重方法，其特征在于，所述方法包括：确定每个统一资源定位符URL的哈希值；基于每个URL的哈希值，划分若干个URL集合；其中，每个URL集合中的任意两个URL相似；构造每个URL集合的生成树；根据预先设置的分支数量阈值，对所述每个URL集合的生成树进行剪枝，得到所述每个URL集合剪枝后的生成树；遍历所述每个URL集合剪枝后的生成树，得到去重后的URL集合。

【技术特征摘要】
1.一种统一资源定位符语义去重方法，其特征在于，所述方法包括：确定每个统一资源定位符URL的哈希值；基于每个URL的哈希值，划分若干个URL集合；其中，每个URL集合中的任意两个URL相似；构造每个URL集合的生成树；根据预先设置的分支数量阈值，对所述每个URL集合的生成树进行剪枝，得到所述每个URL集合剪枝后的生成树；遍历所述每个URL集合剪枝后的生成树，得到去重后的URL集合。2.根据权利要求1所述的方法，其特征在于，所述确定每个URL的哈希值，包括：对每个URL进行分词，得到分词列表；基于每个URL的分词列表，计算每个URL的哈希值。3.根据权利要求2所述的方法，其特征在于，对每个URL进行分词，得到分词结果，包括：针对每个URL执行：去除所述URL的协议名称，得到所述URL的剩余部分；以所述剩余部分中的指定标识作为分隔符，将所述剩余部分分成若干个词，得到分词列表。4.根据权利要求1所述的方法，其特征在于，所述基于每个URL的哈希值，划分若干个URL集合，包括：循环执行第一指定操作，直至所有URL都被划分到URL集合中；其中，所述第一指定操作包括：从未被划分到URL集合的URL中，随机选择一个URL；基于随机选择的URL的哈希值以及未被划分到URL集合的剩余URL的哈希值，从所述剩余URL中确定出所有满足预设条件的URL，所述预设条件为：与所述随机选择的URL的海明距离小于预设的相似阈值、且与所述随机选择的URL具有相同的服务器名称；将所有满足所述预设条件的URL与所述随机选择的URL划分到一个URL集合中。5.根据权利要求1所述的方法，其特征在于，所述构造每个URL集合的生成树，包括：针对每个URL集合，执行第二指定操作；其中，所述第二指定操作包括：确定所述URL集合中各URL的分词列表；按照所述各URL的分词列表中分词的先后顺序，构造一个由多层节点组成的生成树，其中，所述生成树的节点层级的上下顺序与所述各URL的分词列表中分词的先后顺序对应，所述生成树的每层节点分别由所述各URL的分词列表中对应顺序的分词组成，且所述每层节点中不存在相同节点。6.根据权利要求5所述的方法，其特征在于，所述根据预先设置的分支数量阈值，对所述每个URL集合的生成树进行剪枝，得到所述每个URL集合剪枝后的生成树，包括：针对每个URL的生成树，执行第三指定操作；其中，所述第三指定操作包括：按照所述URL集合的生成树的节点层级的上下顺序，依次对所述URL集合的生成树的每一层节点执行：判断所述URL集合的生成树的当前层的每个节点的子节点的数量是否大于所述分支数量阈值；当判断出所述当前层的任一节点的子节点的数量大于所述分支数量阈值时，从该节点的子节点中，随机选择任意一个子节点进行保留，同时删除该节点的剩余子节点。7.一种URL语义去重装置，其特征在于，所述装置包括：哈希值确定单元，用于确定每个URL的哈希值；URL集合划分单元，用于基于每个UR...

【专利技术属性】
技术研发人员：张振海，罗剑江，胡泽柱，
申请(专利权)人：顺丰科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人