一种网页内容提取方法及装置制造方法及图纸

技术编号:17363653 阅读:29 留言:0更新日期:2018-02-28 13:42
本发明专利技术实施例公开了一种网页内容提取方法及装置,其中,网页内容提取方法包括:确定待提取网页中目标内容所在的候选区域;根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分;从视觉特征得分最高的候选区域提取所述目标内容。本发明专利技术实施例能够节省人力资源,提高提取效率。

A method and device for web content extraction

The embodiment of the invention discloses a web content extraction method and device, wherein the web content extraction method includes: determining the target candidate region detection content in web pages; according to the preset visual features of the target content, calculate the visual features of the candidate region of each score; the highest scoring candidate from visual characteristics the content of target region extraction. The embodiment of the invention can save the human resources and improve the extraction efficiency.

【技术实现步骤摘要】
一种网页内容提取方法及装置
本专利技术实施例涉及计算机
,具体涉及一种网页内容提取方法及装置。
技术介绍
随着互联网规模的不断扩大,网络信息也呈现出指数级的递增,用户通过网络获取自己感兴趣的信息变得越来越困难。网页内容抽取的出现,正是顺应了网络的发展以及人们对信息需求要求的不断提高。通过网页内容的抽取,我们能够将感兴趣的内容存入数据库中,从而能够提供更强大的查询服务;通过网页内容的抽取,我们能够将有用的内容进行分析处理,从而再次发布;通过网页内容的抽取,我们能够将多个网站的信息集成,从而进行比较分析。现有的网页内容抽取方法,一般需要人工标注每个网页的可扩展标记语言路径语言(ExtensibleMarkupLanguagePathLanguage,XPath)数据,然后将每个网页的XPath数据存储在后台,当一个网页下载结束之后,根据网页的统一资源定位符(UniformResourceLocator,URL)去匹配后台存储的XPath数据,利用匹配到的XPath数据从对应网页抽取内容。对于网络的海量数据,这种抽取方法需要花费大量的人工成本去标注每个网页的XPath,提取效率较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种网页内容提取方法及装置,能够节省人力资源,提高提取效率。本专利技术实施例提供的网页内容提取方法,包括:确定待提取网页中目标内容所在的候选区域;根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分;从视觉特征得分最高的候选区域提取所述目标内容。本专利技术实施例提供的网页内容提取装置,包括:确定单元,用于确定待提取网页中目标内容所在的候选区域;计算单元,用于根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分;提取单元,用于从视觉特征得分最高的候选区域提取所述目标内容本专利技术实施例中,先确定待提取网页中目标内容所在的候选区域,然后根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分,最后从视觉特征得分最高的候选区域提取所述目标内容,即本专利技术实施例的提取过程,依赖网页设计者根据人眼获取网页信息的经验,针对目标内容所作出的吸引用户的、突出的设计(即目标内容的预设视觉特征),确定目标内容所在的区域,进而直接从该区域提取目标内容,因而不再需要人工标注每个网页的XPath数据,节省了人力资源,提高了提取效率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例所提供的网页内容提取方法的一个场景示意图;图2是本专利技术实施例所提供的网页内容提取方法的一个流程示意图;图3是本专利技术实施例所提供的网页内容提取方法的另一流程示意图;图4是本专利技术实施例所提供的网页内容提取装置的一个结构示意图;图5是本专利技术实施例所提供的网页内容提取装置的另一结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。由于现有的网页内容提取方法,需要人工手动标注每个网页的XPath数据,需要花费较大的人工成本,提取效率低,因而本专利技术实施例提供了一种网页内容提取方法及装置,能够节省人力资源,提高提取效率。本专利技术实施例提供的网页内容提取方法可实现在网页内容提取装置中,网页内容提取装置可以是服务器。本专利技术实施例网页内容提取方法一个具体实施场景可如图1所示,网页内容提取装置可以先下载待提取网页,然后确定待提取网页中目标内容(即需要提取的网页内容,例如网页中的标题、图片、价格等)所在的候选区域,该候选区域可为多个,根据所述目标内容的预设视觉特征(该预设视觉特征可为网页设计者根据人眼获取网页信息的经验,针对目标内容所作出的吸引用户的、突出的设计,预设视觉特征可为目标内容的字体颜色、字体大小、字体加粗程度、背景颜色、边框颜色等信息),计算每个候选区域的视觉特征得分,从视觉特征得分最高的候选区域提取所述目标内容。例如,在图1所示的待提取网页中,根据统计数据可知,目标内容的候选区域有三个,则分别计算这三个候选区域的视觉特征得分,选取视觉特征得分最高的候选区域,例如视觉特征得分最高的候选区域为候选区域2,则从候选区域2提取目标内容。即本专利技术实施例的提取过程:依赖统计所得的目标内容的预设视觉特征确定目标内容所在的区域,进而直接从该区域提取目标内容,因而不再需要人工标注每个网页的XPath数据,节省了人力资源,提高了提取效率。以下分别进行详细说明,需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。实施例一如图2所示,本实施例的方法包括以下步骤:步骤201、确定待提取网页中目标内容所在的候选区域;具体实现中,在实施本实施例的方法之前,可以先通过人工数据收集,统计出待提取内容在网页中所在的区域的集合。待提取内容可根据实际网页类型自定义,例如,针对电商网页,待提取内容可以是商品的名称、价格、图片等信息;再例如,针对新闻网页,待提取内容可以是标题,图片等信息。具体统计方法可如下:先收集各个站点的网页,本实施例中,可以从每个站点中选取预设数量的具有代表性的网页,预设数量可根据实际需求自定义,对收集的网页进行视觉特征渲染以便浏览;然后可以对收集的网页进行分类(例如电商类,新闻类),针对每类网页,可以统计不同网页中待提取内容的位置信息,该位置信息可用坐标、宽度、高度组合来表示,位置信息通常表现为一个区域,然后合并待提取内容在各个网页中的位置信息,最终形成各个待提取内容在网页中所在的区域的集合。以此类推,可以得到,针对每类网页统计的,各个待提取内容在网页中所在的区域的集合。目标内容属于待提取内容,具体实现中,可以先确定待提取网页的类型,根据待提取网页的类型,找出所统计的对应类型网页的,各个待提取内容在网页中所在的区域的集合,根据该集合确定待提取网页中目标内容所在的候选区域,由于每类网页通常包括多个网页,不同网页的结构、布局可能不同,所以候选区域通常为多个。步骤202、根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分;具体实现中,在执行本步骤之前,可以先通过特征训练得到各个待提取内容的预设视觉特征及各个预设视觉特征的预设分值。预设视觉特征,通常为网页设计者根据人眼获取网页信息的经验,针对待提取内容所作出的吸引用户的、突出的设计,预设视觉特征可为待提取内容的字体颜色、字体大小、字体加粗程度、背景颜色、边框颜色等信息。例如,针对电商类网页,用户往往很容易找到商品的名称、价格、图片等(即待提取信息)信息,这是因为网页设计者在设计网页时,根据人眼获取网页信息的经验(即人的视觉感官对信息特征的敏感度),把重要的信息(例如商品的名称、价格、图片等信息)设计的更吸引用户、更突出。例如,针对商品的价格,把价格字体设计的很大,价格字体的颜色设计的更醒目,甚至把价格字体加粗等。因此,可以先下载(例如利用w本文档来自技高网...
一种网页内容提取方法及装置

【技术保护点】
一种网页内容提取方法,其特征在于,包括:确定待提取网页中目标内容所在的候选区域;根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分;从视觉特征得分最高的候选区域提取所述目标内容。

【技术特征摘要】
1.一种网页内容提取方法,其特征在于,包括:确定待提取网页中目标内容所在的候选区域;根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分;从视觉特征得分最高的候选区域提取所述目标内容。2.根据权利要求1所述的方法,其特征在于,所述确定待提取网页中目标内容所在的候选区域包括:根据预先统计的网页中各个待提取内容所在的区域的集合,确定所述目标内容在所述待提取网页中的候选区域。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分包括:计算每个所述候选区域内存在的,与各个所述预设视觉特征对应的各个视觉特征的得分;将每个所述候选区域内的所述各个视觉特征的得分累加,作为每个所述候选区域的视觉特征得分。4.根据权利要求3所述的方法,其特征在于,所述计算每个所述候选区域内存在的,与各个所述预设视觉特征对应的各个视觉特征的得分包括:判断每个所述候选区域内的所述各个视觉特征,是否与对应的各个所述预设视觉特征匹配;确定与对应的所述预设视觉特征匹配的视觉特征的得分,等于对应的所述预设视觉特征的预设分值;确定与对应的所述预设视觉特征不匹配的视觉特征的得分,等于零。5.根据权利要求4所述的方法,其特征在于,所述匹配包括:所述视觉特征与对应的所述预设视觉特征相同,或所述视觉特征的参数属于对应的所述预设视觉特征的参数区间。6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:测试所提取的所述目标内容是否准确;根据测试结果调整所述目标内容的各个预设视觉特征的预设分值。7...

【专利技术属性】
技术研发人员:赵铭鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1