一种页面信息提取方法和装置制造方法及图纸

技术编号：9569057 阅读：66 留言：0更新日期：2014-01-16 02:37

本发明专利技术提供了一种页面信息提取方法和装置，所述方法包括：S?1、获取全网的网页页面；S2、逐一将所获取的网页页面解析成文档对象模型树，根据页面标签大小、位置及层叠样式表信息，对所述网页页面进行视觉分块处理，得到视觉分块；S3、基于语义特征对所述视觉分块进行标注，得到标注分块；S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析，将含有地址信息的识别为地址信息块；S5、从所述地址信息块中提取兴趣点名称和对应的地址信息；S6、将提取到的兴趣点名称与地址信息进行关联，得到结构化信息。相较于现有技术，本发明专利技术能自动对全网中结构变化多样且数量巨大的对象进行挖掘，节省人力成本，提高准确率和召回率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种页面信息提取方法和装置，所述方法包括：S?1、获取全网的网页页面；S2、逐一将所获取的网页页面解析成文档对象模型树，根据页面标签大小、位置及层叠样式表信息，对所述网页页面进行视觉分块处理，得到视觉分块；S3、基于语义特征对所述视觉分块进行标注，得到标注分块；S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析，将含有地址信息的识别为地址信息块；S5、从所述地址信息块中提取兴趣点名称和对应的地址信息；S6、将提取到的兴趣点名称与地址信息进行关联，得到结构化信息。相较于现有技术，本专利技术能自动对全网中结构变化多样且数量巨大的对象进行挖掘，节省人力成本，提高准确率和召回率。【专利说明】一种页面信息提取方法和装置【
】本专利技术涉及互联网信息处理
，特别涉及一种页面信息提取方法和装置。【
技术介绍
】随着互联网和信息技术的不断发展，互联网已经成为人们日常获取信息的主要来源。由于web网页每天都以几何级数激增，为了使用户能够快速准确的获得自己感兴趣的信息，通常会先对这些海量的页面数据进行信息提取。信息提取的任务是把文本里包含的信息进行结构化处理，以便人们可以像查询数据库一样获取自己需要的信息。例如，可以利用信息提取的方法提取网页中包含的实体机构名称、地址、联系电话等联系方式，获取地理兴趣点数据，以利用后续用户检索或查询时提供较好的搜索结果。现有的信息提取方法通常是基于模板的结构化信息提取方法，通过人工编写模板的规则，对互联网中的页面信息进行挖掘，得到结构化信息。采用这种方式不仅需要消耗巨大的人工代价，而...
一种页面信息提取方法和装置

【技术保护点】
一种页面信息提取方法，其特征在于，包括：S1、获取全网的网页页面；S2、逐一将所获取的网页页面解析成文档对象模型树，根据页面标签大小、位置及层叠样式表信息，对所述网页页面进行视觉分块处理，得到所述网页页面的视觉分块；S3、基于视觉分块的语义特征对所述视觉分块进行标注，得到标注分块；S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析，将含有地址信息的标注分块识别为地址信息块；S5、从所述地址信息块中提取兴趣点名称和对应的地址信息；S6、将提取到的兴趣点名称与地址信息进行关联，得到结构化信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：王松，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人