网页处理装置和网页处理方法制造方法及图纸

技术编号:14277585 阅读:53 留言:0更新日期:2016-12-24 20:24
本发明专利技术实施例提供一种网页处理装置和网页处理方法,用于在实体网页中嵌入资源描述框架属性(RDFa),该装置包括:第一识别单元,其用于识别网页的实体类型,所述实体类型对应有至少一个RDFa;第一划分单元,其基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;第一确定单元,根据预先确定的语义片段与RDFa的对应关系,确定所述网页中每个语义片段所对应的所述实体类型中的RDFa,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的RDFa。根据本发明专利技术实施例,无需对训练网页进行预先的人工标注,从而节省时间和人力,并且具有良好的扩展性。

【技术实现步骤摘要】

本专利技术信息
,尤其涉及一种网页处理装置和网页处理方法
技术介绍
近年来,互联网上的文本信息呈爆炸式增长,其中绝大多数为未经组织的页面,而非结构化文本。网页语义标注是把非机器可读、非结构化的网页文本转换成可被机器读取格式的文本。使用资源描述框架属性(Resource Description Framework attribute,RDFa)对超文本标记语言(Hyper Text Mark-up Language,HTML)网页中的语义属性进行注解,成为了互联网语义标注的一种可行方案。目前,将资源描述框架属性(RDFa)嵌入到超文本标记语言(HTML)页面通常需要页面编撰者手动完成,需要消耗大量的时间和人力。为此,研究者们开发出自动或半自动的方法来完成页面语义标注和信息抽取等工作。网页页面的自动语义标注通常为有监督的标注方法,即由人工对训练网页进行预先标注,并根据训练网页构造分类器,用来将资源描述框架属性(RDFa)嵌入到待标注的网页中。在上述有监督的标注方法中,训练网页的数量越多,自动标注的准确度越高。应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
本申请的专利技术人发现,上述有监督的自动标注方法仅适用于人为组织的小规模、良定义的语义标签的场合,而在人工标注的训练网页数量不足的场合下,使用该方法进行标注的准确度会受到影响,并且分类器也不能扩展到被用于其它的场合,因此不具备良好的扩展性。本申请的实施例提供一种网页处理装置和网页处理方法,基于弱监督(weak/distant supervision)的方式构造资源描述框架属性与网页中语义分段的对应关系,并根据该对应关系在实体类型网页的语义分段中嵌入相应的资源描述框架属性。根据本专利技术实施例的第一方面,提供一种网页处理装置,用于在实体网页中嵌入资源描述框架属性(Resource Description Framework attribute,RDFa),该装置包括:第一识别单元,其用于识别网页的实体类型(entity type),所述实体类型对应至少一个资源描述框架属性(RDFa);第一划分单元,其基于所述网页的视觉结构(visual structure)以及所述实体类型,将所述网页划分为至少一个语义片段(semantic fragment);第一确定单元,根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性(RDFa),其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的资源描述框架属性(RDFa)。根据本专利技术实施例的第二方面,提供一种网页处理方法,用于在实体网页中嵌入资源描述框架属性(Resource Description Framework attribute,RDFa),该方法包括:识别网页的实体类型(entity type),所述实体类型对应至少一个资源描述框架属性(RDFa);基于所述网页的视觉结构(visual structure)以及所述实体类型,将所述网页划分为至少一个语义片段(semantic fragment);根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性(RDFa),其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及在所述网页的每个语义片段中嵌入对应的资源描述框架属性(RDFa)。本专利技术的有益效果在于:该方法无需对训练网页进行预先的人工标注,从而节省时间和人力,并且具有良好的扩展性。参照后文的说明和附图,详细公开了本专利技术的特定实施方式,指明了本专利技术的原理可以被采用的方式。应该理解,本专利技术的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本专利技术的实施方式包括许多改变、修改和等同。针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。附图说明所包括的附图用来提供对本专利技术实施例的进一步的理解,其构成了说明书的一部分,用于例示本专利技术的实施方式,并与文字描述一起来阐释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本申请实施例1的网页处理方法的一个流程示意图;图2是本实施例1的实体网页的一个示意图;图3是本实施例1的将网页划分为语义片断的方法的一个流程示意图;图4是本实施例1的网页的树状结构的一个示意图;图5是本实施例1的识别触发词的方法的一个流程示意图;图6是本申请实施例1的预先确定语义片段与RDFa的对应关系的方法的一个流程图;图7是本实施例1的检索得到训练网页的方法的一个流程示意图;图8是本申请实施例2的网页处理装置的一个组成结构示意图;图9是实施例2的第一划分单元的一个组成结构示意图;图10是实施例2的第二识别单元的一个组成结构示意图;图11是本实施例2的第二确定单元的一个组成结构示意图;图12是本实施例2的检索单元的一个组成结构示意图。具体实施方式参照附图,通过下面的说明书,本专利技术的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本专利技术的特定实施方式,其表明了其中可以采用本专利技术的原则的部分实施方式,应了解的是,本专利技术不限于所描述的实施方式,相反,本专利技术包
括落入所附权利要求的范围内的全部修改、变型以及等同物。实施例1本申请实施例1提供一种网页处理方法,用于在实体网页中嵌入资源描述框架属性(Resource Description Framework attribute,RDFa)。图1是本申请实施例1的网页处理方法的一个流程示意图。如图1所示,该方法包括:S101、识别网页的实体类型(entity type),所述实体类型对应至少一个资源描述框架属性(RDFa);S102、基于所述网页的视觉结构(visual structure)以及所述实体类型,将所述网页划分为至少一个语义片段(semantic fragment);S103、根据预先确定的语义片段与资源描述框架属性(RDFa)的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性(RDFa);S104、在所述网页的每个语义片段中嵌入对应的资源描述框架属性(RDFa)。在本实施例中,步骤S103中的语义片段与资源描述框架属性(RDFa)之间的对应关系是基于网页检索所获得的训练网页而确定的,而不是基于人工标注的训练网页确定的,因此,本实施例是采用弱监督的方法来构造上述对应关系,无需对训练网页进行预先的人工标注,从而节省时间和人力,并且具有良好的扩展性。在本实施例中,实体网页是指该网页内容仅本文档来自技高网
...
网页处理装置和网页处理方法

【技术保护点】
一种网页处理装置,用于在实体网页中嵌入资源描述框架属性,该装置包括:第一识别单元,其用于识别网页的实体类型,所述实体类型对应至少一个资源描述框架属性;第一划分单元,其基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;第一确定单元,根据预先确定的语义片段与资源描述框架属性的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的资源描述框架属性。

【技术特征摘要】
1.一种网页处理装置,用于在实体网页中嵌入资源描述框架属性,该装置包括:第一识别单元,其用于识别网页的实体类型,所述实体类型对应至少一个资源描述框架属性;第一划分单元,其基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;第一确定单元,根据预先确定的语义片段与资源描述框架属性的对应关系,确定所述网页中每个语义片段所对应的资源描述框架属性,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的资源描述框架属性。2.如权利要求1所述的网页处理装置,其中,所述第一划分单元包括:第二识别单元,其用于识别所述网页中的触发词;其中,所述触发词用于描述所述实体类型对应的资源描述框架属性的属性名称,并且用于引导所述实体类型对应的资源描述框架属性的属性值;第二划分单元,其根据该触发词在所述网页的树状结构中所处的第一节点的位置,以及所述树状结构中与所述第一节点处于同一层次的第二节点的位置,将所述页面划分为至少一个语义片断。3.如权利要求2所述的网页处理装置,其中,所述第二识别单元包括:提取单元,其根据所述实体类型中的资源描述框架属性所对应的谓语,提取包含该谓语的文本片断;第三识别单元,其用于从包含该谓语的文本片断中识别出将所述谓语作为所述触发词的文本片断。4.如权利要求1所述的网页处理装置,其中,所述装置还包括第二确定单元,其用于确定语义片段与资源描述框架属性的对应关系。5.如权利要求4所述的网页处理装置,其中,所述第二确定单元包括:检索单元,其用于检索与知识库中的主语相关的网页,作为所述训练网页;第四识别单元,其用于识别每一个训练网页的实体类型;第三划分单元,其用于将每一个训练网页都划分为至少一个语义片断;第一生成单元,其用于根据对全部训练网页的语义片断的划分结果,生成所述语义片断与所述语义片断中包含的谓语的对应关系;第二生成单元,其用于根据所述语义片断与所述谓语的对应关系,以及谓语与资源描述框架属性的对应关系,生成所述语义片段与资源描述框架属性...

【专利技术属性】
技术研发人员:方瑞玉缪庆亮房璐孟遥
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1