【技术实现步骤摘要】
本专利技术属于计算机信息检索和存储领域,针对关于文本的信息遍历提供了一种新的自动四维可视化表示方法(为用户构建多维索引)。该方法建立在三维可视化和人机互动的基础上。
技术介绍
目前的文本可视化方法主要包括传统的图表可视化方法,例如直方图、单位的组织结构图、商品目录、数据库中的实体-属性关联图等。存在缺点是不能对任意文本进行可视化,也不能适应海量数据库的可视化。计算机“可视查询”工具,通过图形方法或者数据抽象的方法对文本库进行可视化,可以被任何用户用于任何环境,但仍不适合规模比较庞大的文本数据库。目前研究人员已经为基于文本的大型信息数据库创建了分析系统,它们依靠布尔查询、文档列表和大量的人工消耗来进行分类、编辑和对数据进行结构化。在许多诸如市场分析、气象预测评估、环境监测甚至国家安全情报搜集分析领域,分析人员的任务是仔细辨别大量的数据以得出合适的信息认知模式以及满足跨越不同数据源之间的不规则模式。但随着开放的数字资源存指数级别增长,面对海量的文档数据,用户将面临如下问题文档归类困难,文档很难被识别,存储空间增加,检索的速度降低。现有的三维可视化方法也存在处理过程过于简单、容易丢失文本信息以及人机互动不强的缺点。
技术实现思路
为了克服上述已有技术存在的缺点,本专利技术为海量文本信息的检索分析处理提供了新的基于向量空间维数变换文本空间化表示和向量处理方法,可以根据实际需求进行任意维数的可视化,增加了用户喜好参数作为第四维数。 本专利技术的基本思想是根据用户输入,提取特征向量的数目,得出文本检索分析的最佳维数,以此来决定和显示文本数据库中相关文本 ...
【技术保护点】
一种文本信息遍历的快速四维可视化方法,其特征在于,(1)构建待分析的文本的数据库;(2)接受用户输入,将输入值与固定特征值结合,创建高维的特征向量,每个高维的特征向量表示独立文本集合的主题属性;(3)将得到的高维特征组成聚类,每个聚类按照与某个主题属性的关联度进行初步划分;(4)计算出每个聚类的质心坐标,质心被投影到二维平面;(5)为每个文本建立一个向量,每个向量包含该文本到质心的距离;(6)创建文本分层,每个分层都与相应的聚类关联,用坐标(x,y)表示与每个分层相关联的文本;(7)应用一个转换函数求出每个文本的z坐标以及u坐标,得出四维可视化表示,并将该坐标叠加到其他分层上。
【技术特征摘要】
1.一种文本信息遍历的快速四维可视化方法,其特征在于,(1)构建待分析的文本的数据库;(2)接受用户输入,将输入值与固定特征值结合,创建高维的特征向量,每个高维的特征向量表示独立文本集合的主题属性;(3)将得到的高维特征组成聚类,每个聚类按照与某个主题属性的关联度进行初步划分;(4)计算出每个聚类的质心坐标,质心被投影到二维平面;(5)为每个文本建立一个向量,每个向量包含该文本到质心的距离;(6)创建文本分层,每个分层都与相应的聚类关联,用坐标(x,y)表示与每个分层相关联的文本;(7)应用一个转换函数求出每个文本的z坐标以及u坐标,得出四维可视化表示,并将该坐标叠加到其他分层上。2.按照权利要求1所述的一种文本信息遍历的快速四维可视化方法,其特征在于,(1)文本的预处理,设置待处理文本的数量N,输入文本,将自然语言文本转换为可视化形式,用以下统计属性作为衡量个体文本的特征值X=文本编号,文本大小,文本格式,文本中的关键词的出现位置和次数,每个词语的位置、出现次数和相邻词语的编号,用户访问该文本的次数,用预先获取的语言知识定义的语义以及用户可能输入的特征值,用文本的特征值来表示文本,其中Xi、Xj表示第i和第j个文本的特征向量,将该距离作为文本间的相似度,并将相似度与第(1)步求得的特征值结合起来组成高维特征向量集合;(3)对文本特征向量进行聚类,(a)当文本特征向量个数M小于或等于N时,采用K均值聚类算法进行数据聚类(i)设c为聚类数目,max为允许进行迭代的最大次数,Th为进行连续迭代时允许的最小偏差阈值,聚类误差值E为每个特征向量与质心的平方偏...
【专利技术属性】
技术研发人员:蔡阳波,陈勇,
申请(专利权)人:上海芯盛电子科技有限公司,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。