基于上下文的半结构化数据语义提取的处理方法技术

技术编号:2853774 阅读:382 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及数据处理技术领域,特别是具有复杂内部结构和相互之间具有链接结构的基于上下文的半结构化数据语义提取的处理方法,包括:多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法。这些方法能利用数据之间的链接和引用等关联关系、以及数据的各种内部结构进行更有效的语义提取,并能在数据集合包含噪声链接的情况下具有健壮性。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别是具有复杂内部结构和相互之间具有链接结构的。
技术介绍
随着信息和网络技术的发展,在今天我们可以很容易地通过电子和网络媒体获得数量巨大而且涉及各个领域的信息资源,即所谓的信息爆炸(Information Explosion)问题已经对迅速有效地组织和索引信息资源以及信息检索技术产生了迫切的需求。信息非结构化、信息种类多样化、文档内容涵盖范围广泛等因素对信息组织和检索提出了巨大的挑战。例如,Web已经成为科学研究、教育学习等领域最重要的信息源和知识库;但Web信息的指数级增长速度同时也为用户有效的利用带来了巨大的难度。据统计,1999年2月Web中只含8亿个可访问的网页;到2000年7月这一数量增长到了21亿个,其增长速度为每天产生730万个新的网页。近年来广泛得到建设的数字图书馆是另外一个重要的海量信息源。数字图书馆是保存大量结构化信息的数字化资源库,这些数字资源的生成者可能是传统的图书馆、博物馆、档案馆、大学、政府部门、专业组织或个人,其目标是让所有的人在任何时间、任何地点可以用任何连接互联网的数字设备来访问人类所有的知识。以一本书300页、每页1500个字符计算,百万册数字图书的文本信息共900G,再加上相关的元数据描述,XML文档总的数据量超过1T,同时数字图书馆中还含有大量用于教学、科研和娱乐的视频和音频等多媒体资源。通过搜索引擎、浏览器等软件和服务设施,用户可以访问Web或数字图书馆的信息和资源,但是用户往往需要的是更为精细、更符合需求的知识而不是成堆的信息,例如用户要求能同时获得表达同一主题的不同媒体形态的信息(例如文本形式的网页和电子书、图像和文本共存形式的演示文档、视音频形式的多媒体资料等)。因此为满足用户多样化、个性化、具有多种媒体形态的信息和知识服务需求,基于Web的信息服务系统(例如网络教育资源管理系统)以及数字图书馆的内容管理和访问系统必须具有能对这些半结构化的信息或数据进行有效的语义提取及相关的分析处理功能。本专利技术涉及对半结构化数据资源进行语义提取。半结构化数据是指超文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构化的字符或数据流组成,但数据对象同时也具有复杂的内部结构,不同数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。现有的方法对这类数据的分类存在着如下一些缺点或不足1)语义提取过程中多利用纯统计的方法,而利用的语义信息少(如图1)。语义信息对于检索系统的准确度以及用户需求都有重要的意义。2)统计方法的重要假设是所有数据都是具有相同结构的实体,数据之间是独立且同分布的(Independent and identically distributed,IID)。然而,许多现实数据集本身具有复杂的内部结构,不同数据之间通过(超)链接、引用等联系起来构成一关系数据集合。这种链接结构是一种重要的信息源,包含了丰富的语义信息。例如我们可以用传统的文本挖掘方法来进行超文本的主题提取和分类,即将每个文档用关键字或术语向量来进行描述,在此基础上对每个网页进行独立的分类。这种统计方法完全忽略了网页之间的链接结构和网页的内部结构。一般地,若文档之间有超链接则表明他们的主题具有相关关系;每个文档内部也具有节、段等结构,而同一节的超链往往可能指向主题更相关的其他文档。因此,在对这种半结构化数据资源进行处理的过程中,我们不能忽略数据之间的关系关联(例如超链),这些超链可以使处理具有更高的准确度。更重要的是,由于数据之间相互关联,我们不能独立地进行不同数据的处理,而需要同时决定集合中的所有关联数据的主题或类标签。3)现有的链接方法缺少健壮性。目前国内外某些研究者已经注意到半结构化数据之间链接的重要性,提出了一些基于链接的分类方法(Link-based classification)。但是,这些方法都假设数据之间的链接关系满足“百科全书式”(encyclopedia regularity)或“同引式”(co-referencing regularity)链接规律,即假设链接的对象都具有相同或相关的主题。而事实上,链接数据中有大量的链接并不反映具体的语义含义,也不具有统计显著的模式(这类链接关系称为噪声链接(Noisylinks))。因此,当链接分类方法应用到这样的数据集上时,其分类准确率将远远低于没有噪声链接的数据集。在各种现实的链接数据中,噪声是普遍存在的,例如在Web中存在有大量的广告、浏览链接等;同时由于关系数据的特殊性,我们也不能应用传统的去噪方法(通常假设噪声满足标准高斯分布)。为解决上述三个问题,我们需要有新的模型和方法来利用链接、引用等关系信息来对半结构关系数据进行有效的语义提取和分析。本专利技术即给出这样一种语义提取方法。方法的核心是从内部结构和相关关系等两方面来建模数据之间的上下文依赖关系,在此基础上构造健壮的语义模型。
技术实现思路
本专利技术的目的在于给半结构化数据资源提供一种基于上下文的语义提取和分析处理方法,这种方法能利用数据之间的链接和引用等关联关系、以及数据的各种内部结构进行更有效的语义提取,能在数据集合包含噪声链接的情况下具有健壮性。这种方法能直接应用在不同的半结构化数据资源。本专利技术的半结构化数据是指超文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构化的字符或数据流组成,但数据对象同时也具有复杂的内部结构,不同数据对象之间通过(超)链接、引用等联系起来构成关系数据集合。为实现上述目的,本专利技术提出多粒度语义模型来建模这些半结构化数据的内部多层语义结构,以及上下文依赖网络模型(CDN)来建模数据之间的链接语义关系。本专利技术的多粒度语义模型可以用于建模具有复杂内在结构的半结构化数据对象,从而能有效地刻画数据对象内部结点间上下文主题相关关系;CDN模型可以用于各种通过(显式或隐式)链接、引用、参照等关联起来的关系数据,从而能刻画数据对象间的上下文相关关系,使模型本身具有对不同链接特征的选择性。同时,本专利技术以Web站点为例,给出了一种多粒度语义模型的构建方法,即将给定的Web站点的内部结构分解为页面链接图和DOM树,并用上下文统计模型来刻画结点间的上下文依赖关系。基于多粒度语义模型和CDN模型,本专利技术针对不同数据对象(或集合)提出了三种语义提取和处理方法。对单个半结构化数据(如单个Web网页、单个数字图书等)采用两阶段语义提取和主题标定方法;对具有简单内部结构或无内部结构的数据资源集合(如Web网页集合、学术论文集合、简单教育资源集合等)采用基于CDN模型的链接数据协作主题标定方法;而对具有复杂内部结构的数据资源集合(如Web网站集合、数字图书、复杂教育资源集合等)采用多粒度语义挖掘方法。本专利技术的特征在于能有效地利用各种上下文依赖关系(包括数据对象内部的同一粒度结构上下文和粒度间上下文,以及数据对象间的链接上下文等)进行更有效的语义提取,从而能有效提高复杂数据对象的语义提取和主题标定的准确率。,包括多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法,其特征在于能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依赖关系来进本文档来自技高网
...

【技术保护点】
一种基于上下文的半结构化数据语义提取的处理方法,包括多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法,其特征在于能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依赖关系来进行语义提取和主题标定,提高结果的准确率和模型的健壮性。

【技术特征摘要】
1.一种基于上下文的半结构化数据语义提取的处理方法,包括多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法,其特征在于能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依赖关系来进行语义提取和主题标定,提高结果的准确率和模型的健壮性。2.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,半结构化数据资源的多粒度语义模型,多粒度语义模型通过根据数据对象的内部结构将其分解为具有不同粒度结点的多层描述,通过建模结点间的结构上下文来刻画结点间的主题相关关系。3.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,基于多粒度语义模型的两阶段语义提取方法,方法将给定的Web站点的内部结构分解为页面链接图和DOM树,并用上下文统计模型来刻画结点间的上下文依赖关系,方法包括如下七大步骤(S1.0-S1.6)S1.0输入数据为给定Web站点的URL;S1.1根据一定的抓取策略(,利用网页抓取器获取该站点的网页;S1.2构造Web站点的网页链接图。包括如下步骤S1.2.1提取站点内部网页之间的链接关系;S1.2.2去除Web站点内部的浏览链接、广告链接;S1.2.3根据锚点文本计算任意网页间链接的权值;S1.2.4采用聚类方法,聚集和合并近邻小结点,并处理链接合并问题;S1.2.5构造站点链接图;S1.3为每个网页构造DOM树;S1.3.1解析网页,包括HTML或XML格式;S1.3.2构造DOM结点;S1.3.3采用聚类方法,聚集和合并DOM结点;S1.4为每个DOM结点提取特征,特征包括文本关键字、图形特征、链接特征等;S1.5用上下文统计模型来刻画结点间的上下文依赖关系;S1.6输出给定Web站点的多粒度语义模型。4.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,半结构化关系数据资源的上下文依赖网络(CDN)模型,CDN模型用无向图来刻画一组变量间的概率关系,这些变量的联合分布可以用一组可独立学习的局部条件分布来近似,同时这些局部条件分布可以进一步建模为加权边沿概率分布的线性组合。5.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,基于多粒度语义模型的两阶段语义提取方法,方法采用隐Markov树作为树结构的统计模型,通过层次分类来实现结果的优化。方法包括如下四个步骤(S2.1-S2.4)S2.1为每个底层结点提取内容特征,特征包括文本关键字、图形特征、链接特征;S2.2利用传统的统计分类算法,根据特征向量来对底层结点进行主题标定;S2.3利用树分类器对中间层结点进行主题标定;S2.4基于中间层结点的标定主题,再次利用树分类器对整个数据对象进行主题标定。6.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法,其特征在于,基于多粒度语义模型的多粒度挖掘方法,方法通过多层次分类以及基于上下文的优化来得到最优的主题标定结果,方法包括如下三大步骤(S4.1-S4.3)S4.1用树分类器沿粒...

【专利技术属性】
技术研发人员:田永鸿黄铁军高文
申请(专利权)人:中国科学院研究生院
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1