一种页面信息提取方法和装置制造方法及图纸

技术编号:9569057 阅读:66 留言:0更新日期:2014-01-16 02:37
本发明专利技术提供了一种页面信息提取方法和装置,所述方法包括:S?1、获取全网的网页页面;S2、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到视觉分块;S3、基于语义特征对所述视觉分块进行标注,得到标注分块;S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的识别为地址信息块;S5、从所述地址信息块中提取兴趣点名称和对应的地址信息;S6、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。相较于现有技术,本发明专利技术能自动对全网中结构变化多样且数量巨大的对象进行挖掘,节省人力成本,提高准确率和召回率。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种页面信息提取方法和装置,所述方法包括:S?1、获取全网的网页页面;S2、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到视觉分块;S3、基于语义特征对所述视觉分块进行标注,得到标注分块;S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的识别为地址信息块;S5、从所述地址信息块中提取兴趣点名称和对应的地址信息;S6、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。相较于现有技术,本专利技术能自动对全网中结构变化多样且数量巨大的对象进行挖掘,节省人力成本,提高准确率和召回率。【专利说明】一种页面信息提取方法和装置【
】本专利技术涉及互联网信息处理
,特别涉及一种页面信息提取方法和装置。【
技术介绍
】随着互联网和信息技术的不断发展,互联网已经成为人们日常获取信息的主要来源。由于web网页每天都以几何级数激增,为了使用户能够快速准确的获得自己感兴趣的信息,通常会先对这些海量的页面数据进行信息提取。信息提取的任务是把文本里包含的信息进行结构化处理,以便人们可以像查询数据库一样获取自己需要的信息。例如,可以利用信息提取的方法提取网页中包含的实体机构名称、地址、联系电话等联系方式,获取地理兴趣点数据,以利用后续用户检索或查询时提供较好的搜索结果。现有的信息提取方法通常是基于模板的结构化信息提取方法,通过人工编写模板的规则,对互联网中的页面信息进行挖掘,得到结构化信息。采用这种方式不仅需要消耗巨大的人工代价,而且还要求挖掘对象在页面中有相同的结构特点,因而受到人力成本和页面结构一致性的限制,无法大规模应用。对于挖掘对象数量巨大且页面结构变化多样的情况,如获取全网中实体机构的地理兴趣点数据,现有基于模板的结构化信息抽取方式无法满足抽取的准确率和信息召回率要求。【
技术实现思路
】有鉴于此,本专利技术提供了一种页面信息提取方法和装置,能够自动对全网中结构变化多样且数量巨大的对象进行挖掘,节省人力成本,提高准确率和信息召回率,能提取到更全面的结构化信息,提升检索的数据覆盖率。具体技术方案如下:一种页面信息提取方法,该方法包括以下步骤:S1、获取全网的网页页面;S2、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;S3、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;S5、从所述地址信息块中提取兴趣点名称和对应的地址信息;S6、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。根据本专利技术一优选实施例,所述步骤S2具体包括:逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树;计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;遍历所述视觉树,计算每个节点的子树信息;根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;将所述节点与视觉分块对应,构成视觉分块树。根据本专利技术一优选实施例,所述步骤S3具体包括:记录所述视觉分块的块节点信息,计算所述块节点的位置;利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。根据本专利技术一优选实施例,所述地址信息树的构建方法,包括:逐一获取地址实例库中的实例地址;对当前的实例地址进行分词处理,得到该实例地址的词项;利用预设的地址标识词典,识别实例地址中词项的后缀成分;利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分;将识别到的成分添加到地址信息树中对应的节点,形成地址信息树。根据本专利技术一优选实施例,所述从地址信息块中提取兴趣点名称,具体为:利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称。根据本专利技术一优选实施例,所述从地址信息块中提取对应的地址信息,具体包括:判断地址信息块中的文本是否有地址提示词;对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。根据本专利技术一优选实施例,在所述步骤SI之后和步骤S6之前,还包括:获取所述网页页面对应的站点首页或联系页;从所述站点首页或联系页中提取兴趣点名称和对应的地址信息。根据本专利技术一优选实施例,所述获取站点首页的方法采用以下所列的一种或任意结合:从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。根据本专利技术一优选实施例,所述获取网页页面对应的联系页的方法,具体包括:利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。根据本专利技术一优选实施例,在步骤S6之前,还包括:对同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。根据本专利技术一优选实施例,所述校验方法包括:根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。一种页面信息提取装置,该装置包括:网页获取模块,用于获取全网的网页页面;视觉分块处理模块,用于逐一将所述网页获取模块获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;标注模块,用于基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;地址信息块获取模块,用于利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;第一信息提取模块,用于从所述地址信息块中提取兴趣点名称和对应的地址信息;关联模块,用于将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。根据本专利技术一优选实施例,所述视觉分块处理模块具体配置为:逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树;计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;遍历所述视觉树,计算每个节点的子树信息;根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;将所述节点与视觉分块对应,构成视觉分块树。根据本专利技术一优选本文档来自技高网
...
一种页面信息提取方法和装置

【技术保护点】
一种页面信息提取方法,其特征在于,包括:S1、获取全网的网页页面;S2、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;S3、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;S5、从所述地址信息块中提取兴趣点名称和对应的地址信息;S6、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:王松
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1