【技术实现步骤摘要】
网页内容自动提取方法
本专利技术属于网页内容提取
,具体涉及一种网页内容自动提取方法,特别是适用于期刊文献摘要页面内容的提取。
技术介绍
随着信息技术的发展,互联网在信息获取中的重要性正与日俱增。互联网也是科研工作者获取最新发表文献的有效途径。学术期刊出版商(Elsevier、Wiley、Taylor&Francis等)在主站提供期刊文献摘要页面。从这些摘要页面提取作者、发表时间、摘要等信息是建立整合数据库的要点,也是难题。网页内容提取技术是信息提取(InformationExtraction)领域一直以来的热点问题。现有的方法大致可以分为三类:一是基于模板的方法,这种方法根据网页元素的xpath、css表达式进行提取,具有准确性强的优点,但创建模板需要消耗大量人力,大量模板难于维护,且对网页结构的改变鲁棒性差;二是基于DOM树的方法,这类方法将网页解析为DOM树,通过监督或半监督的学习方法,将目标网页与标注页面进行树结构匹配(alignment)或部分匹配(partialalignment),对目标页面进行标注,进而提取网页内容,这类方法效率不高( ...
【技术保护点】
1.一种网页内容自动提取方法,其特征在于,包括:S1、将HTML重新渲染首先建立HTML文档的DOM树与渲染树,再根据所述DOM树与渲染树对每个视觉块进行重新渲染,将img标签重新渲染成一个任意的几何图形,将p、div、a标签的每一行也重新渲染成一个任意的几何图形;S2、对DOM树进行分割首先、按照广度优先顺序从根结点开始遍历DOM树,直到找到子结点数大于1的结点;对该结点进行横向分割,然后选择该结点下的子结点中方向为纵向的结点;其次、对所述方向为纵向的结点进行一次以上的纵向分割,然后选择该结点下的子结点中视觉块面积最大的结点;最后、对所述视觉块面积最大的结点再进行横向分割 ...
【技术特征摘要】
1.一种网页内容自动提取方法,其特征在于,包括:S1、将HTML重新渲染首先建立HTML文档的DOM树与渲染树,再根据所述DOM树与渲染树对每个视觉块进行重新渲染,将img标签重新渲染成一个任意的几何图形,将p、div、a标签的每一行也重新渲染成一个任意的几何图形;S2、对DOM树进行分割首先、按照广度优先顺序从根结点开始遍历DOM树,直到找到子结点数大于1的结点;对该结点进行横向分割,然后选择该结点下的子结点中方向为纵向的结点;其次、对所述方向为纵向的结点进行一次以上的纵向分割,然后选择该结点下的子结点中视觉块面积最大的结点;最后、对所述视觉块面积最大的结点再进行横向分割,得到若干侯选视觉块;S3、对侯选视觉块进行预标注通过启发式算法或/和关键词频率算法给予每个侯选视觉块对应的预标注标签,所有的预标注标签组成一个预标注标签集合;S4、对侯选视觉...
【专利技术属性】
技术研发人员:王世阳,李阳,
申请(专利权)人:武汉伯远生物科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。