【技术实现步骤摘要】
一种页面信息提取方法及装置
本专利技术涉及互联网信息处理
,特别涉及一种页面信息提取方法及装置。
技术介绍
随着互联网和信息技术的不断发展,互联网已经成为人们日常获取信息的主要来源。由于web网页每天都以几何级数激增,为了使用户能够快速准确的获得自己感兴趣的信息,通常会先对这些海量的页面数据进行信息提取。信息提取的任务是把文本里包含的信息进行结构化处理,以便人们可以像查询数据库一样获取自己需要的信息。例如,可以利用信息提取的方法提取网页中包含的实体机构名称、地址、联系电话等联系方式,获取地理兴趣点数据,以利用后续用户检索或查询时提供较好的搜索结果。现有的信息提取方法通常是基于模板的结构化信息提取方法,通过人工编写模板的规则,对互联网中的页面信息进行挖掘,得到结构化信息。采用这种方式不仅需要消耗巨大的人工代价,而且还要求挖掘对象在页面中有相同的结构特点,因而受到人力成本和页面结构一致性的限制,无法大规模应用。对于挖掘对象数量巨大且页面结构变化多样的情况,如获取全网中实体机构的地理兴趣点数据,现有基于模板的结构化信息抽取方式无法满足抽取的准确率和信息召回 ...
【技术保护点】
一种页面信息提取方法,其特征在于,包括:S1、获取全网的网页页面;S2、获取所述网页页面对应的站点首页或联系页;S3、从所述站点首页或联系页中提取兴趣点名称和对应的地址信息;S4、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
【技术特征摘要】
1.一种页面信息提取方法,其特征在于,包括:S1、获取全网的网页页面;S2、获取所述网页页面对应的站点首页或联系页;S3、从所述站点首页或联系页中提取兴趣点名称和对应的地址信息;S4、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息;其中所述S3具体包括:将所述站点首页或联系页的页面标题识别为兴趣点名称;判断所述站点首页或联系页的页面内容是否有地址提示词;对于带有提示词的页面内容,对提示词后面的文本利用预设的地址信息树进行分词,识别出至少一个地址信息;对于无提示词的页面内容,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的页面内容识别为地址信息。2.根据权利要求1所述的方法,其特征在于,所述获取站点首页的方法采用以下所列的一种或任意结合:从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。3.根据权利要求1所述的方法,其特征在于,所述获取网页页面对应的联系页的方法,具体包括:利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。4.根据权利要求1所述的方法,其特征在于,在所述步骤S1之后和步骤S4之前,还包括:S5、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;S6、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;S7、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;S8、从所述地址信息块中提取兴趣点名称和对应的地址信息。5.根据权利要求4所述的方法,其特征在于,所述步骤S5具体包括:逐一解析所述网页页面,建立当前网页页面的文档对象模型树;计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;遍历所述视觉树,计算每个节点的子树信息;根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;将所述节点与视觉分块对应,构成最终的视觉分块树。6.根据权利要求4所述的方法,其特征在于,所述步骤S6具体包括:记录所述视觉分块的块节点信息,计算所述块节点的位置;利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。7.根据权利要求1或4所述的方法,其特征在于,所述地址信息树的构建方法,包括:逐一获取地址实例库中的实例地址;对当前的实例地址进行分词处理,得到该实例地址的词项;利用预设的地址标识词典,识别实例地址中词项的后缀成分;利用预设的地址信息词典对所述后缀的上下文进行成分分析,识别所述词项的主体成分;将识别到的主体成分添加到地址信息树中对应的节点,形成地址信息树。8.根据权利要求4所述的方法,其特征在于,所述从地址信息块中提取兴趣点名称,包括:利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称;所述从地址信息块中提取对应的地址信息,具体包括:判断地址信息块中的文本是否有地址提示词;对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。9.根据权利要求1或4所述的方法,其特征在于,在步骤S4之前,还包括:对同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。10.根据权利要求9所述的方法,其特征在于,所述校验方法包括:根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。11.一种页面信息提取装置,其特征在于,包括:网页获取模块,用于获取全网的网页页面;站点结构分析模块,用于获取所述网页页面对应的站点首页和联系页;第一信息提取模块,用于从所述站点首页和联系页中提取兴趣点名称和对应的地址信息;关联模块,用于将提取到的兴趣点名称与地址信息进行关联,得到结构化信息;其中所述第一信息提取模块从站点首页和联系页中提取兴趣点名...
【专利技术属性】
技术研发人员:王松,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。