一种文本集合相似性的可视化方法和装置制造方法及图纸

技术编号：8655931 阅读：309 留言：0更新日期：2013-05-01 23:36

本发明专利技术公开了一种文本集合相似性的可视化方法及装置，属于文本信息处理和信息可视化领域；所述方法包括：对文本集合进行预处理；对文本集合的相似度进行计算；对文本集合的相似性进行可视化；所述装置包括：预处理模块、文本相似性计算模块和可视化模块。本发明专利技术通过建立文本集合相似度计算模型来对文本集合的相似性进行度量，并以图形化的方式显示相似性结果，达到使用户直观、快速地了解文本集合内容以及相似性信息的有益效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本信息处理和信息可视化领域，特别涉及一种文本集合相似性的可视化方法和装置。
技术介绍
随着信息技术的快速发展，海量信息不断涌现，使得人们对其处理和理解的难度日益增大。传统的文本处理技术虽已在一定程度上实现了从大数据中挖掘出重要信息，但是这些挖掘出的信息通常仍然无法满足人们利用浏览、筛选等方式对其进行合理地分析、理解和应用。面对这种挑战,文本可视化技术应运而生,它将文本中复杂的或者难以通过文字表达的内容和规律，以视觉符号的形式表达出来，同时向人们提供与视觉信息进行快速交互的功能，使人们能够利用与生俱来的视觉感知的并行化处理能力快速获取大数据中所蕴含的关键信息，为人们提供了一种理解文本的内容、结构和内在规律等信息的有效手段。基于文本内容的可视化技术将词频(词语在文本中的出现次数)、分布情况等基本统计信息进行图形化呈现，能使用户快速地了解文本的大体内容，对于进一步的分析具有重要的向导意义。其中，标签云是一种将文本看作词语的集合，利用词频信息来呈现文本特征的可视化技术。标签云将词语按照一定顺序和规律排列，如频度递减顺序、字母顺序等，以文字的大小代表词语的频度或重要性。最初的标签云大多都采用将文字一行一行地水平排列的方式，后来渐渐遵循更加美观复杂的布局规则，Jonathan Feinberg提出的Wordle便是其中被广泛采用的代表之一。在Wordle中，词语的布局采用水平、竖直相结合的方式，并将文字间的空隙充分利用，使得可视化结果更加紧凑、美观。然而，标签云只能对单一文本集合进行可视化，不能表现文本集合之间的关系。
技术实现思路
为克服上述现有技术的...

【技术保护点】
一种文本集合相似性的可视化方法，其特征在于，所述方法包括：?对文本集合进行预处理，以得到文本集合的特征词及特征词的权重；?对文本集合的相似度进行计算；?对文本集合的相似性进行可视化。

【技术特征摘要】
1.一种文本集合相似性的可视化方法，其特征在于，所述方法包括: 对文本集合进行预处理，以得到文本集合的特征词及特征词的权重；对文本集合的相似度进行计算；对文本集合的相似性进行可视化。2.根据权利要求1所述的方法，其特征在于，所述预处理包括: 将文本集合中的句子切分成词；去除停用词得到文本集合的特征词；并通过出现频次计算得到特征词的权重。3.根据权利要求1所述的方法，其特征在于，所述对文本集合的相似度进行计算，具体包括: 构建用于文本集合相似度计算的模型；利用构建出的相似度计算模型和通过预处理得到的文本集合的特征词及其权重，计算文本集合的相似度。4.根据权利要求3所述的方法，其特征在于，所述模型使用康奈尔大学计算机系开发的SVMm4工具包进行构建，采用两个文本集合的含权重特征词组的余弦相似度、共同特征词个数、共同特征词个数分别与两个特征词组的大小比值这4个特征作为构建参数，然后，利用SVMrank工具包计算出两组特征词的相似度V，文本集合的相似度5.根据权利要求1至4任一权利要求所述的方法，其特征在于，所述对文本集合的相似性进行可视化包括: 计算特征词在图形展示中布局信息；利用计算出的布局信息图形化展示文本集合的相似性。6.根据权利要求5所述的方法，其特征在于，所述图形化展示的视觉特点为: 特征词整体分布呈椭圆形，字体越大，位置越靠近原点；共同特征词以颜色I表示，字体大小与特征词的权重以及文本集合A与B的相似度大小相关，并且比非共同特征词字体大，以突显共同特征词；文本集合A的非共同特征词以颜色2表示，字体大小与特征词的权重相关；文本集合B的非共同特征词以颜色3表示，字体大小与特征词的权重相关；文本集合A和B的非共同特征词的边界，在保证...

【专利技术属性】
技术研发人员：唐家渝，孙茂松，刘知远，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人