基于上下文的半结构化数据语义提取的处理方法技术

技术编号：2853774 阅读：384 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及数据处理技术领域，特别是具有复杂内部结构和相互之间具有链接结构的基于上下文的半结构化数据语义提取的处理方法，包括：多粒度语义模型、上下文依赖网络（ＣＤＮ）模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于ＣＤＮ模型的协作主题标定方法。这些方法能利用数据之间的链接和引用等关联关系、以及数据的各种内部结构进行更有效的语义提取，并能在数据集合包含噪声链接的情况下具有健壮性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理
，特别是具有复杂内部结构和相互之间具有链接结构的。
技术介绍
随着信息和网络技术的发展，在今天我们可以很容易地通过电子和网络媒体获得数量巨大而且涉及各个领域的信息资源，即所谓的信息爆炸(Information Explosion)问题已经对迅速有效地组织和索引信息资源以及信息检索技术产生了迫切的需求。信息非结构化、信息种类多样化、文档内容涵盖范围广泛等因素对信息组织和检索提出了巨大的挑战。例如，Web已经成为科学研究、教育学习等领域最重要的信息源和知识库；但Web信息的指数级增长速度同时也为用户有效的利用带来了巨大的难度。据统计，1999年2月Web中只含8亿个可访问的网页；到2000年7月这一数量增长到了21亿个，其增长速度为每天产生730万个新的网页。近年来广泛得到建设的数字图书馆是另外一个重要的海量信息源。数字图书馆是保存大量结构化信息的数字化资源库，这些数字资源的生成者可能是传统的图书馆、博物馆、档案馆、大学、政府部门、专业组织或个人，其目标是让所有的人在任何时间、任何地点可以用任何连接互联网的数字设备来访问人类所有的知识。以一本书300页、每页1500个字符计算，百万册数字图书的文本信息共900G，再加上相关的元数据描述，XML文档总的数据量超过1T，同时数字图书馆中还含有大量用于教学、科研和娱乐的视频和音频等多媒体资源。通过搜索引擎、浏览器等软件和服务设施，用户可以访问Web或数字图书馆的信息和资源，但是用户往往需要的是更为精细、更符合需求的知识而不是成堆的信息，例如用户要求能同时获得表达同一主题的不同媒体形态的...

【技术保护点】
一种基于上下文的半结构化数据语义提取的处理方法，包括多粒度语义模型、上下文依赖网络（ＣＤＮ）模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于ＣＤＮ模型的协作主题标定方法，其特征在于能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依赖关系来进行语义提取和主题标定，提高结果的准确率和模型的健壮性。

【技术特征摘要】
1.一种基于上下文的半结构化数据语义提取的处理方法，包括多粒度语义模型、上下文依赖网络(CDN)模型、基于多粒度语义模型的两阶段语义提取和多粒度挖掘方法、基于CDN模型的协作主题标定方法，其特征在于能有效地利用数据对象内部结构以及对象间链接所隐含的上下文依赖关系来进行语义提取和主题标定，提高结果的准确率和模型的健壮性。2.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法，其特征在于，半结构化数据资源的多粒度语义模型，多粒度语义模型通过根据数据对象的内部结构将其分解为具有不同粒度结点的多层描述，通过建模结点间的结构上下文来刻画结点间的主题相关关系。3.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法，其特征在于，基于多粒度语义模型的两阶段语义提取方法，方法将给定的Web站点的内部结构分解为页面链接图和DOM树，并用上下文统计模型来刻画结点间的上下文依赖关系，方法包括如下七大步骤(S1.0-S1.6)S1.0输入数据为给定Web站点的URL；S1.1根据一定的抓取策略(，利用网页抓取器获取该站点的网页；S1.2构造Web站点的网页链接图。包括如下步骤S1.2.1提取站点内部网页之间的链接关系；S1.2.2去除Web站点内部的浏览链接、广告链接；S1.2.3根据锚点文本计算任意网页间链接的权值；S1.2.4采用聚类方法，聚集和合并近邻小结点，并处理链接合并问题；S1.2.5构造站点链接图；S1.3为每个网页构造DOM树；S1.3.1解析网页，包括HTML或XML格式；S1.3.2构造DOM结点；S1.3.3采用聚类方法，聚集和合并DOM结点；S1.4为每个DOM结点提取特征，特征包括文本关键字、图形特征、链接特征等；S1.5用上下文统计模型来刻画结点间的上下文依赖关系；S1.6输出给定Web站点的多粒度语义模型。4.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法，其特征在于，半结构化关系数据资源的上下文依赖网络(CDN)模型，CDN模型用无向图来刻画一组变量间的概率关系，这些变量的联合分布可以用一组可独立学习的局部条件分布来近似，同时这些局部条件分布可以进一步建模为加权边沿概率分布的线性组合。5.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法，其特征在于，基于多粒度语义模型的两阶段语义提取方法，方法采用隐Markov树作为树结构的统计模型，通过层次分类来实现结果的优化。方法包括如下四个步骤(S2.1-S2.4)S2.1为每个底层结点提取内容特征，特征包括文本关键字、图形特征、链接特征；S2.2利用传统的统计分类算法，根据特征向量来对底层结点进行主题标定；S2.3利用树分类器对中间层结点进行主题标定；S2.4基于中间层结点的标定主题，再次利用树分类器对整个数据对象进行主题标定。6.按权利要求1所述的基于上下文的半结构化数据语义提取的处理方法，其特征在于，基于多粒度语义模型的多粒度挖掘方法，方法通过多层次分类以及基于上下文的优化来得到最优的主题标定结果，方法包括如下三大步骤(S4.1-S4.3)S4.1用树分类器沿粒...

【专利技术属性】
技术研发人员：田永鸿，黄铁军，高文，
申请(专利权)人：中国科学院研究生院，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人