当前位置: 首页 > 专利查询>上海大学专利>正文

文本语义的可视化表示与获取方法技术

技术编号:2836820 阅读:244 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种文本语义的可视化表示与获取方法,它是将文本语义划分为三个层次:离散的关键词的集合构成的文本低层语义、文本段落构成的文本主题作为文本的中层语义和由文本主题之间相互链接而构成文本篇章的高层语义;通过提取关键词和基于关键词权重的矩阵运算生成文本主题的语义矩阵,再通过文本主题的链接形成文本篇章语义。本发明专利技术能有效地利用文本数据中的上下文依赖关系进行更有效的语义提取,从而能有效提高复杂数据对象的语义提取的准确率;通过根据数据对象的内部结构将其分解为具有不同粒度结点的多层描述,通过建模结点间的上下文结构来刻画结点间的主题相关关系;用权重来度量关键词之间、关键词对文本主题之间、以及文本主题之间的相关程度。该方法可以分层次、简捷高效地获取和表示文本的语义,便于计算机掌握和进行理解处理。

【技术实现步骤摘要】

本专利技术涉及一种计算机自动生成文本语义的表示与获取方法,更具体地说,涉及一种基于语义矩阵的。
技术介绍
随着信息和网络技术的发展,在今天我们可以很容易地通过电子和网络媒体获得数量巨大而且涉及各个领域的信息资源,即所谓的信息爆炸(Information Explosion)问题已经对迅速有效地组织和索引信息资源以及信息检索技术产生了迫切的需求。信息非结构化、信息种类多样化、文档内容涵盖范围广泛等因素对信息组织和检索提出了巨大的挑战。例如,Web已经成为科学研究、教育学习等领域最重要的信息源和知识库;但Web信息的指数级增长速度同时也为用户有效的利用带来了巨大的难度。近年来广泛得到建设的数字图书馆是另外一个重要的海量信息源。数字图书馆是保存大量结构化信息的数字化资源库,这些数字资源的生成者可能是传统的图书馆、博物馆、档案馆、大学、政府部门、专业组织或个人,其目标是让所有的人在任何时间、任何地点可以用任何连接互联网的数字设备来访问人类所有的知识。以一本书300页、每页1500个字符计算,百万册数字图书的文本信息共9006,再加上相关的元数据描述,XML文档总的数据量超过IT,同时数字图书馆中还含有大量用于教学、科研和娱乐的视频和音频等多媒体资源。通过搜索引擎、浏览器等软件和服务设施,用户可以访问Web或数字图书馆的信息和资源,但是用户往往需要的是更为精细、更符合需求的知识而不是成堆的信息,例如用户要求能同时获得表达同一主题的不同媒体形态的信息(例如文本形式的网页和电子书、图像和文本共存形式的演示文档、视音频形式的多媒体资料等)。因此为满足用户多样化、个性化、具有多种媒体形态的信息和知识服务需求,基于Web的信息服务系统(例如网络教育资源管理系统)以及数字图书馆的内容管理和访问系统必须具有能对这些半结构化的信息或数据进行有效的语义提取及相关的分析处理功能。本专利技术涉及对文本数据资源进行语义提取,可以是指超文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构化的字符或数据流组成,但数据对象同时也具有内部结构。现有的方法对这类数据的分类存在着如下一些缺点或不足(1)语义提取过程中多利用纯统计的方法,而利用的语义信息少。语义信息对于检索系统的准确度以及用户需求都有重要的意义;(2)统计方法的重要假设是所有数据都是具有相同结构的实体,数据之间是独立且同分布的(Independent and identically distributed)。然而,许多现实数据集本身具有复杂的内部结构。例如我们可以用传统的文本挖掘方法来进行超文本的主题提取和分类,即将每个文档用关键字或术语向量来进行描述,在此基础上对每个网页进行独立的分类。这种统计方法完全忽略了文档的内部结构。一般地,每个文档内部也具有节、段等结构。因此,在对这种半结构化数据资源进行处理的过程中,我们不能忽略数据之间的关系关联。为解决上述两个问题,我们需要有新的模型和方法来利用文本的内部结构来对半结构关系数据进行有效的语义提取和分析。本专利技术即给出这样一种文本语义表示与获取方法,其核心是从文本的内部结构来建模文本语义的上下文依赖关系,在基于矩阵运算的推理规则(模糊认知图)的基础上构造文本语义表示模型并加以可视化。
技术实现思路
本专利技术的目的在于针对已有技术存在的问题,提供一种,这种方法能利用文本数据之间的内部结构进行更有效地语义提取。这种方法能直接应用在不同的半结构化数据资源。本专利技术的文本数据是指超文本、Web网页、数字图书、教育资源等,这些数据对象本身由非结构化的字符或数据流组成,但数据对象同时具有复杂的内部结构。为实现上述目的,本专利技术的构思是用语义矩阵及其图形可视化来建模这些半结构化数据的内部多层语义结构。本专利技术的语义矩阵及其图形可视化可以用于建模具有复杂内在结构的半结构化数据对象,从而能有效地刻画数据对象内部结点间上下文主题相关关系。根据上述的专利技术构思,本专利技术采用下述技术方案一种,其特征在于将文本语义划分为三个层次离散的关键词的集合构成的文本低层语义、文本段落构成的文本主题作为文本的中层语义和由文本主题之间相互链接而构成文本篇章的高层语义;通过提取关键词和基于关键词权重的矩阵运算生成文本主题的语义矩阵,再通过文本主题的链接形成文本篇章语义;具体操作步骤如下(1)将文本语义划分为三个层次离散的关键词的集合构成的文本低层语义、文本段落构成的文本主题作为文本的中层语义和由文本主题之间相互链接而构成文本篇章的高层语义,其中用TF-IDF公式提取出关键词,再把下载的文本按照其内部结构分成若干段落,(如自然段落),用一个XML的标签表示一个文本段落的标题,一个段落代表一个文本主题,用一个XML文件储存一篇文本中的所有段落,一个XML文件代表一个文本篇章;(2)计算一个文本段落中的关键词的状态值和关键词之间的权重在每个文本段落内,统计关键词出现的频率,再计算关键词的状态值,以及关键词之间的权重;(3)用关键词的状态值、关键词之间的权重和基于矩阵相乘运算的推理规则,计算各个关键词对文本主题的权重,归一化文本主题中的所有权重在区间之间,生成文本主题的语义矩阵;(4)用一个文本段落的标题或文本段落中具有单词数与关键词数之比最大的语句形成文本主题中的主题结点名称;(5)找出文本主题之间共同的关键词,根据共同出现的关键词对各自文本主题的权重,计算文本篇章中文本主题之间的权重,并链接文本主题为文本篇章,并用有向图可视化文本篇章归一化文本篇章中的所有权重在区间之间,通过把文本主题语义和其生成的文本篇章语义表示为结点和有向边构成的有向图,实现文本篇章语义的图形可视化;(6)在文本篇章语义的可视化图形中枝剪各个文本主题所独有的关键词。本专利技术与现有技术相比较,具有如下突出的实质性特点和显著优点(1)本专利技术能有效地利用各种上下文依赖关系(包括数据对象内部的同一粒度结构上下文和粒度间上下文)进行更有效的语义提取,从而能有效提高复杂数据对象的语义提取的准确率。(2)本专利技术提供的方法,通过根据数据对象的内部结构将其分解为具有不同粒度结点的多层描述,通过建模结点间的上下文结构来刻画结点间的文本主题相关关系。(3)本专利技术提供的方法,用权重来度量关键词之间、关键词对文本主题之间、以及文本主题之间的相关程度。(4)本专利技术的方法中,生成语义矩阵所用的推理规则就是模糊认知图(FuzzyCognitive Maps)的推理规则。本专利技术可以分层次、简捷高效地获取和表示文本的语义,便于计算机掌握和进行理解处理。附图说明图1是一个包含4个关键词的文本主题的语义矩阵及其图形可视化。图2是文本段落“基于模糊认知图的文本表示”构成的文本主题的语义矩阵及其可视化图形。图3是文本段落“模糊认知图”构成的可视化图形。图4是文本段落“模糊认知图的自动构建”构成的可视化图形。图5是链接三个文本主题生成的文本篇章的可视化图形。图6是枝剪后的文本篇章的可视化图形。图7是计算文本主题之间的权重时,反转关键词对文本主题的权重的方向。具体实施例方式本专利技术的一个优选实施例结合附图详述如下如有四个关键词C1,C2,C3,C4,它们的文本主题的语义矩阵,及其文本主题的可视化图形如图1所示。的具体步骤和如下(1)将一篇文本语义划分为三个层次本文档来自技高网
...

【技术保护点】
一种文本语义的可视化表示与获取方法,其特征在于将文本语义划分为三个层次:离散的关键词的集合构成的文本低层语义、文本段落构成的文本主题作为文本的中层语义和由文本主题之间相互链接而构成文本篇章的高层语义;通过提取关键词和基于关键词权重的矩阵运算生成文本主题的语义矩阵,再通过文本主题的链接形成文本篇章语义。

【技术特征摘要】
1.一种文本语义的可视化表示与获取方法,其特征在于将文本语义划分为三个层次离散的关键词的集合构成的文本低层语义、文本段落构成的文本主题作为文本的中层语义和由文本主题之间相互链接而构成文本篇章的高层语义;通过提取关键词和基于关键词权重的矩阵运算生成文本主题的语义矩阵,再通过文本主题的链接形成文本篇章语义。2.根据权利要求1所述的文本语义的可视化表示与获取方法,其特征在于操作步骤如下(1)将文本语义划分为三个层次离散的关键词的集合构成的文本低层语义、文本段落构成的文本主题作为文本的中层语义和由文本主题之间相互链接...

【专利技术属性】
技术研发人员:骆祥峰方宁徐炜民
申请(专利权)人:上海大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1