【技术实现步骤摘要】
检测在网页上的重复模式的制作方法检测在网页上的重复模式
技术介绍
通常使用固定的模板或模式来再现网页上的信息。模式可能在网页上重复地出现,并经常被称为重复模式。可以基于在网页上找到的模式,对网页进行分割。例如,片段可以是导航条、头部、尾部、广告、相关链接、版权信息或实际网页内容自身。识别在网页中的模式在很多应用中是有用的,所述应用诸如在小屏幕装置上显示网页、数据挖掘、搜索引擎以及打印装置。进一步地,识别重复模式可以提供关于网页设计、网页结构以及网页上包含的内容的信息。为了从网页识别并检索内容,网页分割算法可以对相似元素进行聚类。在这些算法中,可能不对重复的元素组进行聚类,因为重复的元素可能根本不相似。因此,重复模式可能无法在聚类的元素中检测到,以及由重复模式传达的信息可能丢失。附图说明 参考附图在以下的详细说明中对某些示例性实施例进行说明,在这些附图中 图I是根据本技术的实施例的、可以检测在网页上的重复模式的系统的框 图2是根据本技术的实施例的、用于检测在网页中的重复模式的方法的过程流程图; 图3是示出根据本技术的实施例的、具有节点的网页的一部分的图示; 图4是 ...
【技术保护点】
一种用于检测网页上的重复模式的系统,所述系统包括:处理器,所述处理器适于执行所存储的指令;以及存储指令的存储器装置,所述存储器装置包括处理器可执行代码,所述处理器可执行代码当由所述处理器执行时,适于:生成DOM?树;基于所述DOM?树和节点列表来生成信号;分析所述信号;在所述信号中选择节点以形成周期波;以及使用所述周期波和所述节点来检测重复模式。
【技术特征摘要】
1.一种用于检测网页上的重复模式的系统,所述系统包括 处理器,所述处理器适于执行所存储的指令;以及 存储指令的存储器装置,所述存储器装置包括处理器可执行代码,所述处理器可执行代码当由所述处理器执行时,适于 生成DOM-树; 基于所述DOM-树和节点列表来生成信号; 分析所述信号; 在所述信号中选择节点以形成周期波;以及 使用所述周期波和所述节点来检测重复模式。2.根据权利要求I所述的系统,其中,所述节点列表包括DOM-树中的每个节点的节点深度。3.根据权利要求I所述的系统,其中,所述存储器存储处理器可执行代码,所述处理器可执行代码适于通过如下步骤来基于DOM-树和节点列表生成所述信号 从DOM-树获得节点列表,其中,所述节点列表包括DOM-树中的每个节点的节点深度;以及 基于所述节点列表中的叶节点以及所述节点深度来生成ID信号,其中,每个节点对应于所述信号上的点,其中该点的X坐标对应于该节点的遍历次序以及I坐标对应于所述节点深度。4.根据权利要求I所述的系统,其中,所述存储器存储处理器可执行代码,所述处理器可执行代码适于通过如下步骤基于DOM-树和节点列表生成信号 从DOM-树获得节点列表,其中,所述节点列表包括DOM-树中的每个节点的节点深度;以及 基于节点列表中的叶节点以及节点深度生成ID信号,其中,每个节点对应于所述信号上的点,其中该点的X坐标对应于该节点的遍历次序,以及y坐标对应于节点深度乘以节点特性得分。5.根据权利要求I所述的系统,其中,所述存储器存储处理器可执行代码,所述处理器可执行代码适于通过如下步骤基于DOM-树和节点列表生成信号 从DOM-树获得节点列表,其中,所述节点列表包括DOM-树中的每个节点的节点深度;以及 基于节点列表中的叶节点以及节点深度生成2D信号,其中,每个节点对应于该信号上的点,其中该点的X坐标对应于该节点的遍历次序,y坐标对应于节点深度,以及z坐标基于节点特性得分。6.根据权利要求I所述的系统,其中,所述存储器存储处理器可执行代码,所述处理器可执行代码适于使用...
【专利技术属性】
技术研发人员:HM侯,JM金,LM焦,SH麟,
申请(专利权)人:惠普开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。