一种基于占用矩阵的词云图可视化方法技术

技术编号：10007685 阅读：235 留言：0更新日期：2014-05-07 13:54

字号表示词频可视化文本概要的词云图，以初筛选和归纳性显著提高海量非结构数据使用效率。重叠检测是词云可视化难点，现有算法词组两两比较去重叠，时间复杂度高，速度慢。本发明专利技术提出一组基于占用矩阵的词云图可视化方法，包括：纵横交错词云、任意角度词云和基于占用矩形的词云。采用占用矩阵、边线检测、随机位置、旋转画布和坐标变换技术，将逐一比较转化为一次计算，复杂度降低，解决任意角度重叠。输入为具有一定格式的文本统计数据，输出为可适形、横向、纵横交错、任意角度、字模提取、近大远小、带分类标签具有随机性的组合布局词云，宏观展示文本重点，直观比较数据差异，可广泛应用于文本挖掘和可视化领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于占用矩阵的词云图可视化方法
本专利技术属于数据挖掘和数据可视化领域，涉及一种词云图可视化方法，具体设计了一组基于占用矩阵的任意形状、任意角度、无重叠、字模提取、具有语义分类的词云图可视化算法。
技术介绍
词云图(WordCloud)是一种富信息文本可视化技术，通过布局算法用文字大小表示词频，辅以多种色彩显示，直观反映词组重要性差异，展示文本关键摘要信息。近年来，词云图作为极富表现力的可视化载体，广泛应用于网站导航、社会化标签呈现、Web文本分析以及各种文本挖掘和可视化场景。词云图起源于标签云。标签云(Tagclouds)，早在1997年已被作为网站可视化导航手段，用字体大小表示标签频数，文字逐行水平排列。2002年，照片分享网站Flickr用标签云表示标签流行程度。随后，网络书签应用del.icio.us也采用它标注用户的大量社会化标签。此后，大量网站使用标签云，导航离散的分类信息，点击标签链接进入相应的内容页面，统计易用性使它成为Web2.0时代的显著标志之一。近年，通过用户输入创建标签云的专业网站出现，包括TagCrowd、TagCloudGenerator以及IBM的可视化分享网站ManyEyes。标签云在布局复杂美观以及应用的延伸，逐渐演变发展了另一种独立的文本可视化技术——词云图。词云图通过色彩和布局增强了标签云的视觉效果，帮助人们简明扼要地了解文本的大体内容，实际上是一种离散的自动摘要生成和可视化工具。图1是标签云和词云图布局比较。标签云目前主要用于网站导航，而词云图用于各种文本可视化，但在某些情况下有相互指代之意，如维基百科中“Wor...
一种基于占用矩阵的词云图可视化方法

【技术保护点】
一种词云图可视化方法，其特征在于，包括如下步骤：步骤一：对于已排序的词组和词频，计算可视区域面积，对词频做规格化处理，词频表示字号，使所有词组、词频和词组字数表示的总面积小于可视区域面积；步骤二：设置一个以可视区域的宽W和高H为尺寸的矩阵M，称为占用矩阵，M=[H*W]，将其所有元素置为0，表示未被占用；步骤三：将最大词频的词组布局在可视区中间，其所占用的M矩阵中的子矩阵元素（或仅字模像素区）置为1，表示该区域已占用；步骤四：为下一个词组按照极坐标分配布局位置，如果词组不在可视区内先移动到可视区，通过矩形边线检测是否该区域被占用，即不重叠，如果重叠则为该词组随机分配布局位置，继续检测是否重叠，直至不重叠；步骤五：检测是否可以旋转。将该词组垂直90度旋转后，检测是否与已布局词组重叠，不重叠则可以旋转，随机选择部分旋转，不能旋转或未选中保持原位置；步骤六：检测是否可以向中心靠近，垂直和水平方向同时向可视区中心移动一定步长，不重叠则继续移动，重叠后停止，撤回最后一次移动；逐像素检测垂直和水平单方向是否能靠近中心，能则移动直到重叠为止；步骤七：在可视区域打印该词组，并将其所占用的矩形区域的子矩...

【技术特征摘要】
1.一种词云图可视化方法，其特征在于，包括如下步骤：步骤一：对于已排序的词组和词频，计算可视区域面积，对词频做规格化处理，词频表示字号，使所有词组、词频和词组字数表示的总面积小于可视区域面积；步骤二：设置一个以可视区域的宽W和高H为尺寸的矩阵M，称为占用矩阵，M＝[H*W]，将其所有元素置为0，表示未被占用；步骤三：将最大词频的词组布局在可视区中间，其所占用的M矩阵中的子矩阵元素置为1，表示该区域已占用；步骤四：为下一个词组按照极坐标分配布局位置，如果词组不在可视区内先移动到可视区，通过矩形边线检测是否该区域被占用，即不重叠，如果重叠则为该词组随机分配布局位置，继续检测是否重叠，直至不重叠；步骤五：检测是否可以旋转。将该词组垂直90度旋转后，检测是否与已布局词组重叠，不重叠则可以旋转，随机选择部分旋转，不能旋转或未选中保持原位置；步骤六：检测是否可以向中心靠近，垂直和水平方向同时向可视区中心移动一定步长，不重叠则继续移动，重叠后停止，撤回最后一次移动；逐像素检测垂直和水平单方向是否能靠近中心，能则移动直到重叠为止；步骤七：在可视区域打印该词组，并将其所占用的矩形区域的子矩阵置为1，表示已占用，转步骤四循环，直至所有词组布局完成；调整占用子矩阵的边界参数控制行间距；步骤八：对于词组内部造成的空隙，采用字模提取技术，字模像素与占用矩形区像素重叠才将占用矩阵对应元素置为1；步骤九：对于词组字数差异造成内部缝隙时，布局一定比例词组后，采用极坐标检测占用矩阵内剩余空白圆形区并存储其位置、半径和与中心的距离，按照与中心距离升序排序。对后续的词组布局时，从距离中心最近的空白区开始尝试，再检测是否重叠和是否可以旋转，如果所有空白区都重叠，则随机生成该词组坐标；步骤十：如果提前用已知的二值图形初始化占用矩阵M，可以填充生成任意图形的词云图；步骤十一：在以上步骤基础上设计了任意角度旋转词云图。随机生成词组左下角基线坐标和随机旋转角度α，检测词组旋转后四角坐标是否超出可视区，超出可视区再次随机生成基线坐标和旋转角度，检测旋转后四边是否与已布局词组重叠，重叠则重新生成基线坐标和旋转角度，如果不是第一个词组，则检测是否可以向第一个词组中心移动，不重叠则移动，同样采用纵横双向快速移动和纵横单向逐像素移动，重叠后停止。按照旋转角度α旋转画布，打印词组后旋转画布-α角度；步骤十二：如果预先对词组添加分类标签，可以用色彩、字体和旋转角度标注不同分类的词组，生成多重...

【专利技术属性】
技术研发人员：刘连忠，李春芳，徐同阁，陈梦东，唐文忠，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人