The embodiment of the invention discloses a web content extraction method and device, wherein the web content extraction method includes: determining the target candidate region detection content in web pages; according to the preset visual features of the target content, calculate the visual features of the candidate region of each score; the highest scoring candidate from visual characteristics the content of target region extraction. The embodiment of the invention can save the human resources and improve the extraction efficiency.
【技术实现步骤摘要】
一种网页内容提取方法及装置
本专利技术实施例涉及计算机
,具体涉及一种网页内容提取方法及装置。
技术介绍
随着互联网规模的不断扩大,网络信息也呈现出指数级的递增,用户通过网络获取自己感兴趣的信息变得越来越困难。网页内容抽取的出现,正是顺应了网络的发展以及人们对信息需求要求的不断提高。通过网页内容的抽取,我们能够将感兴趣的内容存入数据库中,从而能够提供更强大的查询服务;通过网页内容的抽取,我们能够将有用的内容进行分析处理,从而再次发布;通过网页内容的抽取,我们能够将多个网站的信息集成,从而进行比较分析。现有的网页内容抽取方法,一般需要人工标注每个网页的可扩展标记语言路径语言(ExtensibleMarkupLanguagePathLanguage,XPath)数据,然后将每个网页的XPath数据存储在后台,当一个网页下载结束之后,根据网页的统一资源定位符(UniformResourceLocator,URL)去匹配后台存储的XPath数据,利用匹配到的XPath数据从对应网页抽取内容。对于网络的海量数据,这种抽取方法需要花费大量的人工成本去标注每个网页的XPath,提取效率较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种网页内容提取方法及装置,能够节省人力资源,提高提取效率。本专利技术实施例提供的网页内容提取方法,包括:确定待提取网页中目标内容所在的候选区域;根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分;从视觉特征得分最高的候选区域提取所述目标内容。本专利技术实施例提供的网页内容提取装置,包括:确定单元,用于确定待提取网页中 ...
【技术保护点】
一种网页内容提取方法,其特征在于,包括:确定待提取网页中目标内容所在的候选区域;根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分;从视觉特征得分最高的候选区域提取所述目标内容。
【技术特征摘要】
1.一种网页内容提取方法,其特征在于,包括:确定待提取网页中目标内容所在的候选区域;根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分;从视觉特征得分最高的候选区域提取所述目标内容。2.根据权利要求1所述的方法,其特征在于,所述确定待提取网页中目标内容所在的候选区域包括:根据预先统计的网页中各个待提取内容所在的区域的集合,确定所述目标内容在所述待提取网页中的候选区域。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标内容的预设视觉特征,计算每个所述候选区域的视觉特征得分包括:计算每个所述候选区域内存在的,与各个所述预设视觉特征对应的各个视觉特征的得分;将每个所述候选区域内的所述各个视觉特征的得分累加,作为每个所述候选区域的视觉特征得分。4.根据权利要求3所述的方法,其特征在于,所述计算每个所述候选区域内存在的,与各个所述预设视觉特征对应的各个视觉特征的得分包括:判断每个所述候选区域内的所述各个视觉特征,是否与对应的各个所述预设视觉特征匹配;确定与对应的所述预设视觉特征匹配的视觉特征的得分,等于对应的所述预设视觉特征的预设分值;确定与对应的所述预设视觉特征不匹配的视觉特征的得分,等于零。5.根据权利要求4所述的方法,其特征在于,所述匹配包括:所述视觉特征与对应的所述预设视觉特征相同,或所述视觉特征的参数属于对应的所述预设视觉特征的参数区间。6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:测试所提取的所述目标内容是否准确;根据测试结果调整所述目标内容的各个预设视觉特征的预设分值。7...
【专利技术属性】
技术研发人员:赵铭鑫,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。