本发明专利技术提供了一种网络信息的自动提取方法及装置,相应的方法包括从给定信息S相关的网页合集W中找到含有给定信息S的子集Ssub中元素的网页W’;根据预定规则生成信息pattern集合P’,并将信息pattern集合P’与正则表达式集合P求合集获得集合P1;将集合P1与给定信息相关的网页合集W中的所有的网页进行匹配,获得集合Ssub’,直到Ssub==Ssub’时抓取过程结束。本发明专利技术通过根据不同的网页生成相应的正则表达式集合,实现自动提取网页中的内容,省去了很多工作量。
【技术实现步骤摘要】
本专利技术涉及一种网络信息的自动提取方法及装置,属于网络信息提取
技术介绍
对于在网页上展现的信息,现有技术普遍通过正则表达式来描述,对于不同的网页,所对应的正则表达式往往是各不相同,这样就导致网络信息提取的工作量较大。
技术实现思路
本专利技术为解决现有的网络信息提取的工作量较大的问题,进而提供了一种网络信息的自动提取方法及装置。为此,本专利技术提供了如下的技术方案一种网络信息的自动提取方法,包括·从给定信息S相关的网页合集W中找到含有给定信息S的子集Ssub中元素的网页W,;根据预定规则生成信息pattern集合P’,并将信息pattern集合P’与正则表达式集合P求合集获得集合P1 ;将集合P1与给定信息相关的网页合集W中的所有的网页进行匹配,获得集合Ssub ’,直到Ssub==Ssub'时抓取过程结束。一种网络信息的自动提取装置,包括网页选取单元,用于从给定信息S相关的网页合集W中找到含有给定信息S的子集Ssub中元素的网页W,;集合选取单元,用于根据预定规则生成信息pattern集合P’,并将信息pattern集合P’与正则表达式集合P求合集获得集合P1 ;内容抓取单元,用于将集合P1与给定信息相关的网页合集W中的所有的网页进行匹配,获得集合Ssub’,直到Ssub==Ssub'时抓取过程结束。本专利技术提供的技术方案通过根据不同的网页生成相应的正则表达式集合,实现自动提取网页中的内容,省去了很多工作量。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I是本专利技术的具体实施方式提供的两个网页获取信息的示意图;图2是本专利技术的具体实施方式提供的n个网页获取信息的示意图;图3是本专利技术的具体实施方式提供的网络信息的自动提取方法的流程示意图;图4是本专利技术的具体实施方式提供的生成信息pattern集合P’的流程示意图5是本专利技术的具体实施方式提供的验证正则表达式集合的流程示意图;图6是本专利技术的具体实施方式提供的人脸特征定位装置的结构示意图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本具体实施方式提供的技术方案的原理是对于不同类型的网页会包含同一种信息的情况,由于同一种信息在不同的网站上表达方式是不同的。例如在音乐领域,互联网上有很多的包含音乐信息网站、论坛等,它们不同的网站、论坛网页结构和表现形式一般是不相同的,但是它们包含了很多同种类型的信息,例如歌曲名、歌手名、专辑等信息,对于 一种信息,对于同一类型的网页(记为urlpatternl),可以通过正则表达式(prefixl infosuffixl)来表示,并将记录下来值的合集记为VI。而对于不同类型的网页(urlpattern2),它们有不同的正则表达式(prefix2 info suff ix2),将这个网站的值的合集记为V2,则Vl与V2的交集不等于空,并且Vl和V2的值描述的信息是一致的。以此类推如果存在n —个不同类型网页,则应存在小于等于n个值的集合,存在小于等于n个正则表达式。具体逻辑如图I和图2所示。因此对于给定信息的部分集合(比如10到100的样本量),记为Ssub,则可以通过网页合集W,来得到信息合集S’。定义覆盖率为|S n S’ I/S,定义准确率Is n s’ I/S’,相对于覆盖率,准确率对于网页内容提取更重要。因为如果准确率过低,对于大多数的应用是没有意义的,但是覆盖率过低可以通过海量的网页数量进行弥补,所以本具体实施方式提供的技术方案是针对提高网页内容提取的准确率而提出的。下面结合说明书附图进行详细说明,如图3所示,相应的网络信息的自动提取方法包括步骤31,从给定信息S相关的网页合集W中找到含有给定信息S的子集Ssub中元素的网页W’。具体的,对于给定信息S的子集Ssub,子集Ssub中的元素是可枚举的,并定义正则表达式合集P=|。首先遍历给定信息S相关的网页合集W,从网页合集W中找到含有给定信息S的子集Ssub中元素的网页W,。步骤32,根据预定规则生成信息pattern集合P’,并将信息pattern集合P’与正则表达式集合P求合集获得集合匕。根据预定规则生成信息pattern集合P’,并使W’ =>Ssub,其中信息pattern集合P’的生成过程具体如图4所示,具体可以包括首先定义正则表达式的样式为p=prefix info suffix ;并用以下集合作为正则表达式的组成元素数字集合NumberSet、字母集合EnglishSet、特殊符号集合SpecialSet、汉字集合ChineseSet、网页标签集合MetaSet ;其中正则表达式的info的内容通过数字集合NumberSet、字母集合EnglishSet、特殊符号集合SpecialSet和汉字集合ChineseSet表示,prefix和suffix的内容通过网页标签集合MetaSet表示;遍历给定信息S的子集Ssub,找到某一元素S,并找到在网页w中元素s的位置;向前回溯,找到第一个网页标签,记为prefix ;向后回溯,找到第一个网页标签,记为 suffix ;把prefix和suffix中间的内容按照数字集合NumberSet、字母集合EnglishSet、特殊符号集合SpecialSet和汉字集合ChineseSet的描述规则生成元素s在网页w上的正则集合;根据元素s在网页w上的正则集合生成Ssub在网页w上的正则表达集合,记录为P,pl, p2…pn。步骤33,将集合P1与给定信息相关的网页合集W中的所有的网页进行匹配,获得集合Ssub ’,直到Ssub==Ssub'时抓取过程结束。具体的,将集合P1与给定信息相关的网页合集W中的所有的网页进行匹配,获得集合Ssub',如果Ssub>Ssub’,则令Ssub=Ssub'后重新执行步骤31,直到Ssub==Ssub'时抓取过程结束。 进一步地,本具体实施方式还可以包括验证正则表达式集合的过程,如图5所示,具体可以包括将每个网页r与给定信息的子集Ssub相乘,得到正则表达式合集Tt=Tl,T2…Tn ;遍历正则表达式合集Tt,得到一个正则表达式合集T1,遍历正则表达式合集T1,将任意的正则表达式P G Tn与网页W’进行匹配,得到值的集合S;如果S-Ssub幸O,舍弃改表达式(该步骤的作用是去掉同时匹配其他内容的正则表达式);如果S-Ssub=①,则给定信息的子集Ssub中元素的个数Scount等于集合S中的元素个数;遍历正则表达式合集Tt,对于任意的Tn G Tt,如果Tn中正则表达式的个数大于1,则选取Tn中Scount最大的正则表达式,舍去其余的正则表达式(该步骤的作用是对于同一个匹配的多个表达式,选取匹配最多的那个);遍历正则表达式合集Tt,对比其中任意本文档来自技高网...
【技术保护点】
一种网络信息的自动提取方法,其特征在于,包括:从给定信息S相关的网页合集W中找到含有给定信息S的子集Ssub中元素的网页W’;根据预定规则生成信息pattern集合P’,并将信息pattern集合P’与正则表达式集合P求合集获得集合P1;将集合P1与给定信息相关的网页合集W中的所有的网页进行匹配,获得集合Ssub’,直到Ssub==Ssub′时抓取过程结束。
【技术特征摘要】
【专利技术属性】
技术研发人员:杨俊拯,温予,张旸,黄百宁,王世平,葛猛,孟玲会,
申请(专利权)人:北京云泓道元信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。