【技术实现步骤摘要】
本专利技术属于网络信息处理领域,尤其涉及一种网页信息抽取的系统及方法。
技术介绍
现在的网页抽取技术可以根据应用的领域分为针对特定领域的网页抽取技术和通用的网页抽取技术。在针对特定领域的网页抽取技术中,通常需要对待抽取的内容做出一些前提假设。例如对新闻网页正文的抽取,对网页中某些特定属性的抽取,如对产品价格的抽取。该类方法往往根据待抽取对象的特征,通过统计学的方法或者通过总结出发式规则的方法,对网页进行抽取。但是由于抽取对象的特殊性,限制了该类方法的通用性及可以抽取的信息的种类和数量。在通用的网页抽取技术中,根据网页抽取工具的自动化程度,分为手工构建规则的抽取系统,半有监督的抽取系统,无监督的抽取系统和有监督的抽取系统。在手工构建规则的抽取系统中,使用者通过对每个网站手工编写一个包装器(wrapper)进行抽取,wrapper所使用的语言可以是一个通用的编程语言或者是特别设计的用于的抽取的语言,该类工具需要用户有着一定计算机和编程方面的知识,所以这种方法的代价相当高,对于大量网站和海量网页的抽取这种花费往往是无法容忍。半有监督的抽取系统相对于有监督的抽取系统,通 ...
【技术保护点】
一种网页信息抽取的系统,其特征在于,包括: 模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页对所述待自动标注网页进行分类,同时生成所述训练网页对应的类别的网页模板; 网页同质化模块,用于依据所述类别的网页模板屏蔽属于所述类别的待自动标注网页同所述类别的网页模板间的差异; 自动标注模块,用于解析所述类别的训练网页,生成第一包装器文件,按所述第一包装器文件对所述类别的待自动标注网页进行自动标注,以生成新的训练网页; 包装器文件生成模块,用于解析所有训练网页,生成第二包装器文件; 在线抽取模块,用于应用所述第二包装器文件对所述网页集合中未被选取的网页信息进行抽取。
【技术特征摘要】
1.一种网页信息抽取的系统,其特征在于,包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页对所述待自动标注网页进行分类,同时生成所述训练网页对应的类别的网页模板;网页同质化模块,用于依据所述类别的网页模板屏蔽属于所述类别的待自动标注网页同所述类别的网页模板间的差异;自动标注模块,用于解析所述类别的训练网页,生成第一包装器文件,按所述第一包装器文件对所述类别的待自动标注网页进行自动标注,以生成新的训练网页;包装器文件生成模块,用于解析所有训练网页,生成第二包装器文件;在线抽取模块,用于应用所述第二包装器文件对所述网页集合中未被选取的网页信息进行抽取。2.如权利要求1所述的网页信息抽取的系统,其特征在于,所述模板生成模块进一步用于进行所述从网页集合中选取待自动标注网页的操作,构建用户标注的训练网页的DOM树和所述待自动标注网页的DOM树,所述训练网页对应的类别的网页模板为所述训练网页的DOM树,计算所述训练网页的DOM树同所述待自动标注网页的DOM树的相似度,以进行相似度比较,如果所述相似度大于预设阈值,则所述待自动标注网页属于所述训练网页对应的类别,否则,提示用户对所述待自动标注网页进行标注,以生成新的训练网页,构建所述新的训练页的DOM树和待自动标注网页的DOM树,新的训练网页对应的类别的网页模板为所述新的训练网页的DOM树,将新的训练页的DOM树同待自动标注网页的DOM树进行所述相似度比较,以完成分类。3.如权利要求2所述的网页信息抽取的系统,其特征在于,所述模板生成模块还用于利用所述类别中的待自动标注网页的DOM树简化所述网页模板。4.如权利要求3所述的网页信息抽取的系统,其特征在于,所述模板生成模块在简化所述网页模板时进一步用于识别出所述网页模板中的重复数据节点,将所述网页模板同所述类别的待自动标注网页的DOM树进行匹配,将所述网页模板中未被匹配并且不为所述重复数据节点的节点删除。5.如权利要求4所述的网页信息抽取的系统,其特征在于,所述模板生成模块在识别所述网页模板中的重复数据节点时进一步用于在所述网页模板中确定一条被标记记录中的所有节点的共同祖先节点,查找所述祖先节点的所有同名的邻居节点,判断以所述同名的邻居节点为根节点的子树同以所述被标记记录中的节点为根节点的子树的相似度是否大于预设阈值,如果是,则所述同名的邻居节点和所述被标记记录中的节点为重复数据节点;否则,在所述祖先节点的上一层节点中查找直到找到重复数据节点或查找到所述网页模板的根节点为止。6.如权利要求5所述的网页信息抽取的系统,其特征在于,所述模板生成模块在将所述网页模板简化后还用于将所述网页模板中以除所述被标记记录中的节点外的重复数据节点为根节点的子树同以所述被标记记录中的节点为根节点的子树进行匹配,将以除所述被标记记录中的节点外的重复数据节点为根节点的子树中未被匹配的节点屏蔽。7.如权利要求2所述的网页信息抽取的系统,其特征在于,所述网页同质化模块进一步用于将同一类别中所述待自动标注网页的DOM树同所述网页模板进行匹配,将所述待自动标注网页的DOM树中未被匹配的节点屏蔽。8.如权利要求1所述的网页信息抽取的系统,其特征在于,所述自动标注模块,在解析所述类别的训练网页,生成第一包装器文件时进一步用于将所述训练网页转化为标记序列,定位所述标注的数据的前后分隔符,确定所述分隔符的左右规则。9.如权利要求8所述的网页信息抽取的系统,其特征在于,所述自动标注模块,在解析所述类别的训练网页,生成第一包装器文件时还用于将每个分隔符作为不确定状态机的一个状态,将每个分隔符对应的左右规则作为从当前状态跳转到下一状态的跳转规则。10.如权利要求1所述的网页信息抽取的系统,其特征在于,所述包装器文件生成模块进一步用于将所述训练网页转化为标记序列,定位所述标注的数据的前后分隔符,确定所述分隔符的左右规则;每个分隔符为不确定状态机的一个状态,每个分隔符对应的左右规则为从当前状态跳转到下一状态的跳转规则。11.如权利要求10所述的网页信息抽取的系统,其特征在于,所述在线抽取模块进一步用于将所述网页集合中未被选取的网页转化为标记序列,遍历所述标记序列中标记,判断标记是否符合当前状态的跳转规则,如果是,则跳转到下一状态,在所述当前状态和所述下一状态分别对应一个属性的前后分隔符时,将所述当前状态对应的分隔符和所述下一状态对应...
【专利技术属性】
技术研发人员:吴博,王宇,张刚,丁国栋,程学旗,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。