提取结构化数据的方法及装置制造方法及图纸

技术编号:11421536 阅读:149 留言:0更新日期:2015-05-06 23:17
本发明专利技术实施例公开了一种提取结构化数据的方法及装置,该方法包括:将网页划分为主体区域和辅助区域,构建用于表示所述主体区域的XPATH标记树;将所述XPATH标记树中的XPATH节点与CSS标签进行对应,并根据CSS标签内容的相似度将所述CSS标签进行分组;若所述XPATH标记树中各个XPATH节点的CSS标签均属于同一分组,且所述各个XPATH节点的CSS标签是属于同一父标签下的子标签,则提取所述XPATH标记树中各个XPATH节点对应的数据作为正文内容。

【技术实现步骤摘要】
提取结构化数据的方法及装置
本专利技术涉及数据处理领域,尤其涉及一种提取结构化数据的方法及装置。
技术介绍
网络上所公开的文档通常称作网页,其一般都是用称作HTML的语言来进行公开,而HTML为文档规定了标准格式。虽然将网络信息以HTML格式呈现时,用户可以非常便利地进行阅读,但是若用户想从HTML文档中进行信息检索以便进行自动化处理则较为困难。这是因为网页中的数据较繁杂,一些信息,例如导航(菜单)信息和广告信息等,会导致搜索引擎的结果中出现大量垃圾信息,从而导致网络挖掘的精度下降。
技术实现思路
本专利技术实施例所要解决的技术问题在于,针对现有技术中网络数据挖掘精度不足的缺陷,提供一种高效精确的提取结构化数据的方法及装置。为了解决上述技术问题,本专利技术实施例提供了一种提取结构化数据的方法,包括:将网页划分为主体区域和辅助区域,构建用于表示所述主体区域的XPATH标记树;将所述XPATH标记树中的XPATH节点与CSS标签进行对应,并根据CSS标签内容的相似度将所述CSS标签进行分组;若所述XPATH标记树中各个XPATH节点的CSS标签均属于同一分组,且所述各个XPATH节点的CSS标签是属于同一父标签下的子标签,则提取所述XPATH标记树中各个XPATH节点对应的数据作为正文内容。其中,所述将网页划分为主体区域和辅助区域,构建用于表示所述主体区域的XPATH标记树的步骤包括:解析网页,获取所述网页的XPATH节点;根据所述XPATH节点的属性对所述XPATH节点进行过滤,获取体现网页结构布局的XPATH节点;将所述体现网页结构布局的XPATH节点划分为用于表示主体区域的XPATH节点和用于表示辅助区域的XPATH节点,提取用于表示所述主体区域的XPATH节点构建XPATH标记树。其中,所述根据CSS标签内容的相似度将所述CSS标签进行分组的步骤包括:提取所述CSS标签内容中的特征属性,所述特征属性包括字体大小、颜色和/或行间距;将所述特征属性一致的CSS标签作为一个分组。其中,所述方法还包括:若所述XPATH标记树中各个XPATH节点的CSS标签不属于同一分组,或所述各个XPATH节点的CSS标签不是属于同一父标签下的子标签,则选择CSS标签数量最多的分组作为最优分组,提取所述最优分组中的CSS标签所对应的XPATH节点下的数据作为正文内容。其中,所述方法还包括:若所述XPATH标记树中各个XPATH节点的CSS标签不属于同一分组,或所述各个XPATH节点的CSS标签不是属于同一父标签下的子标签,则统计各个分组中的CSS标签的数量,剔除数量最少的一组CSS标签对应的XPATH节点,提取所述XPATH标记树中剩余XPATH节点对应的数据作为正文内容。相应地,本专利技术还提供了一种提取结构化数据的装置,包括:主体区域提取模块,用于将网页划分为主体区域和辅助区域,构建用于表示所述主体区域的XPATH标记树;CSS标签对应模块,用于将所述XPATH标记树中的XPATH节点与CSS标签进行对应;CSS标签分组模块,用于根据CSS标签内容的相似度将所述CSS标签进行分组;正文提取模块,用于若所述XPATH标记树中各个XPATH节点的CSS标签均属于同一分组,且所述各个XPATH节点的CSS标签是属于同一父标签下的子标签,则提取所述XPATH标记树中各个XPATH节点对应的数据作为正文内容。其中,所述主体区域提取模块包括:网页解析模块,用于解析网页,获取所述网页的XPATH节点;粗略过滤模块,用于根据所述XPATH节点的属性对所述XPATH节点进行过滤,获取体现网页结构布局的XPATH节点;XPATH标记树构建模块,用于将所述体现网页结构布局的XPATH节点划分为用于表示主体区域的XPATH节点和用于表示辅助区域的XPATH节点,提取用于表示所述主体区域的XPATH节点构建XPATH标记树。其中,所述CSS标签分组模块包括:特征属性提取模块,用于提取所述CSS标签内容中的特征属性,所述特征属性包括字体大小、颜色和/或行间距;特征属性对比模块,用于将所述特征属性一致的CSS标签作为一个分组。其中,所述装置还包括:第一优化模块,用于若所述XPATH标记树中各个XPATH节点的CSS标签不属于同一分组,或所述各个XPATH节点的CSS标签不是属于同一父标签下的子标签,则选择CSS标签数量最多的分组作为最优分组,提取所述最优分组中的CSS标签所对应的XPATH节点下的数据作为正文内容。其中,所述装置还包括:第二优化模块,用于若所述XPATH标记树中各个XPATH节点的CSS标签不属于同一分组,或所述各个XPATH节点的CSS标签不是属于同一父标签下的子标签,则统计各个分组中的CSS标签的数量,剔除数量最少的一组CSS标签对应的XPATH节点,提取所述XPATH标记树中剩余XPATH节点对应的数据作为正文内容。实施本专利技术实施例,具有如下有益效果:通过将XPATH标记树和CSS标签相结合,构建网页页面标记树,能更好更准确地识别网页页面正文内容,提高网页结构化解析的能力,结构化解析后的结果数据更加精准。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术第一实施例提供的提取结构化数据的方法的流程图;图2是本专利技术第二实施例提供的提取结构化数据的方法的流程图;图3是网页节点标记的XML树状结构图;图4是本专利技术第一实施例提供的提取结构化数据的装置的结构示意图;图5是本专利技术第二实施例提供的提取结构化数据的装置的结构示意图;图6是一网页的主体区域的示意图;图7是本专利技术一实施例提供的CSS标签树的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等缺点提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。垂直搜索引擎的数据依赖爬虫搜集,并做了深度加工而来的,因此要求垂直搜索引擎的索引数据倾向于结构化数据和元数据。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,垂直搜索是以结构化数据为最小单位,然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。网页文件通常由标记语言(如HTML)描述,通过标记指明页面文本的显示格式。本文档来自技高网...

【技术保护点】
一种提取结构化数据的方法,其特征在于,包括:将网页划分为主体区域和辅助区域,构建用于表示所述主体区域的XPATH标记树;将所述XPATH标记树中的XPATH节点与CSS标签进行对应,并根据CSS标签内容的相似度将所述CSS标签进行分组;若所述XPATH标记树中各个XPATH节点的CSS标签均属于同一分组,且所述各个XPATH节点的CSS标签是属于同一父标签下的子标签,则提取所述XPATH标记树中各个XPATH节点对应的数据作为正文内容。

【技术特征摘要】
1.一种提取结构化数据的方法,其特征在于,包括:将网页划分为主体区域和辅助区域,构建用于表示所述主体区域的XPATH标记树,该步骤包括:解析网页,获取所述网页的XPATH节点;根据所述XPATH节点的属性对所述XPATH节点进行过滤,获取体现网页结构布局的XPATH节点;将所述体现网页结构布局的XPATH节点划分为用于表示主体区域的XPATH节点和用于表示辅助区域的XPATH节点,提取用于表示所述主体区域的XPATH节点构建XPATH标记树;将所述XPATH标记树中的XPATH节点与CSS标签进行对应,并根据CSS标签内容的相似度将所述CSS标签进行分组;若所述XPATH标记树中各个XPATH节点的CSS标签均属于同一分组,且所述各个XPATH节点的CSS标签是属于同一父标签下的子标签,则提取所述XPATH标记树中各个XPATH节点对应的数据作为正文内容。2.如权利要求1所述的提取结构化数据的方法,其特征在于,所述根据CSS标签内容的相似度将所述CSS标签进行分组的步骤包括:提取所述CSS标签内容中的特征属性,所述特征属性包括字体大小、颜色和/或行间距;将所述特征属性一致的CSS标签作为一个分组。3.如权利要求1所述的提取结构化数据的方法,其特征在于,所述方法还包括:若所述XPATH标记树中各个XPATH节点的CSS标签不属于同一分组,或所述各个XPATH节点的CSS标签不是属于同一父标签下的子标签,则选择CSS标签数量最多的分组作为最优分组,提取所述最优分组中的CSS标签所对应的XPATH节点下的数据作为正文内容。4.如权利要求1所述的提取结构化数据的方法,其特征在于,所述方法还包括:若所述XPATH标记树中各个XPATH节点的CSS标签不属于同一分组,或所述各个XPATH节点的CSS标签不是属于同一父标签下的子标签,则统计各个分组中的CSS标签的数量,剔除数量最少的一组CSS标签对应的XPATH节点,提取所述XPATH标记树中剩余XPATH节点对应的数据作为正文内容。5.一种提取结构化数据的装置,其特征在于,包括:主体区域提取模块,用于将网页划分为主体区域和辅助区域,构...

【专利技术属性】
技术研发人员:欧阳科杜建欣齐彦申
申请(专利权)人:深圳市国信互联科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1