当前位置: 首页 > 专利查询>清华大学专利>正文

一种文本集合相似性的可视化方法和装置制造方法及图纸

技术编号:8655931 阅读:309 留言:0更新日期:2013-05-01 23:36
本发明专利技术公开了一种文本集合相似性的可视化方法及装置,属于文本信息处理和信息可视化领域;所述方法包括:对文本集合进行预处理;对文本集合的相似度进行计算;对文本集合的相似性进行可视化;所述装置包括:预处理模块、文本相似性计算模块和可视化模块。本发明专利技术通过建立文本集合相似度计算模型来对文本集合的相似性进行度量,并以图形化的方式显示相似性结果,达到使用户直观、快速地了解文本集合内容以及相似性信息的有益效果。

【技术实现步骤摘要】

本专利技术涉及文本信息处理和信息可视化领域,特别涉及一种文本集合相似性的可视化方法和装置
技术介绍
随着信息技术的快速发展,海量信息不断涌现,使得人们对其处理和理解的难度日益增大。传统的文本处理技术虽已在一定程度上实现了从大数据中挖掘出重要信息,但是这些挖掘出的信息通常仍然无法满足人们利用浏览、筛选等方式对其进行合理地分析、理解和应用。面对这种挑战,文本可视化技术应运而生,它将文本中复杂的或者难以通过文字表达的内容和规律,以视觉符号的形式表达出来,同时向人们提供与视觉信息进行快速交互的功能,使人们能够利用与生俱来的视觉感知的并行化处理能力快速获取大数据中所蕴含的关键信息,为人们提供了一种理解文本的内容、结构和内在规律等信息的有效手段。基于文本内容的可视化技术将词频(词语在文本中的出现次数)、分布情况等基本统计信息进行图形化呈现,能使用户快速地了解文本的大体内容,对于进一步的分析具有重要的向导意义。其中,标签云是一种将文本看作词语的集合,利用词频信息来呈现文本特征的可视化技术。标签云将词语按照一定顺序和规律排列,如频度递减顺序、字母顺序等,以文字的大小代表词语的频度或重要性。最初的标签云大多都采用将文字一行一行地水平排列的方式,后来渐渐遵循更加美观复杂的布局规则,Jonathan Feinberg提出的Wordle便是其中被广泛采用的代表之一。在Wordle中,词语的布局采用水平、竖直相结合的方式,并将文字间的空隙充分利用,使得可视化结果更加紧凑、美观。然而,标签云只能对单一文本集合进行可视化,不能表现文本集合之间的关系。
技术实现思路
为克服上述现有技术的缺点,本专利技术的目的在于提供一种文本集合的相似性的可视化方法和装置,通过建立文本集合相似度计算模型来对文本集合的相似性进行度量,并以图形化的方式显示结果,使用户对两个文本集合的相似性有直观地了解。为实现上述目的,本法采取如下技术方案一方面,提供了一种文本集合相似性的可视化方法,所述方法包括对文本集合进行预处理,以得到文本集合的特征词及特征词的权重;对文本集合的相似度进行计算;对文本集合的相似性进行可视化。另一方面,提供了一种文本集合相似性的可视化装置,所述装置包括预处理模块,用于将待可视化的原始数据进行预处理,获得文本集合的特征词及特征词的权重;文本相似性计算模块,用于计算文本集合的相似度;可视化模块,用于利用上述结果数据进行信息可视化,呈现出文本集合的相似性。与现有技术相比,本专利技术的有益效果是将文本集合的特征词及文本集合的相似关系通过图形界面进行展示,从而达到使用户直观、快速地了解文本集合内容以及相似性信息的目的。附图说明图1是本专利技术实施例1提供的文本集合相似性的可视化方法流程图。图2是本专利技术实施例2提供的文本集合相似性的可视化装置结构示意图。图3是本专利技术实施例3提供的文本集合相似性的可视化装置结构示意图。图4是应用本专利技术实施例3所述装置对文本集合相似性进行可视化的结果示例示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图和实施例对本专利技术作进一步的详细描述。实施例1参见图1,本实施例提供了一种文本集合相似性的可视化方法,方法流程如下所示101 :对文本集合进行预处理;102 :对文本集合的相似度进行计算;103 :对文本集合的相似性进行可视化。本实施例提供的方法,通过建立文本集合相似度计算模型来对文本集合的相似性进行度量,并以图形化的方式显示相似性结果,达到使用户直观、快速地了解文本集合内容以及相似性信息的有益效果。实施例2参见图2,本实施提供了一种文本集合相似性的可视化装置,该装置包括预处理模块201,用于对待进行相似度计算的文本集合进行预处理;相似度计算模块202,用于对经预处理后的文本集合进行相似度计算;可视化模块203,用于对文本集合的相似性进行可视化。具体地,上述预处理模块201中,将文本集合切分成词,去除停用词后得到文本特征词,并计算词语的权重;其中,停用词指如“的”、“和”和“在”等一些介词、语气助词和非常常用的字词。相似度计算模块202中,通过文本集合的特征词及其权重,计算文本集合的相似度。可视化模块203中,图形化展示的视觉特点描述如下1.特征词整体分布呈椭圆形,字体越大,位置越靠原点;2.共同特征词以颜色I表示,字体大小与特征词的权重以及文本集合A与B的相似度大小相关,并且比非共同特征词字体大,以突显共同特征词;3.文本集合A的非共同特征词以颜色2表示,字体大小与特征词的权重相关;4.文本集合B的非共同特征词以颜色3表示,字体大小与特征词的权重相关;5.文本集合A和B的非共同特征词的边界,在保证图形轮廓规则性的基础上,与非共同特征词组的大小相关。实施例3参见图3,本实施提供了一种文本集合相似性的可视化装置,该装置包括:预处理模块301,用于对待可视化的原始数据进行预处理,获得文本集合的特征词及权重;相似度计算模块302,用于对经预处理后的文本集合进行相似度计算;可视化模块303,用于利用上述结果对文本集合的相似性进行可视化。进一步地,所述的预处理模块301包括:分词单元301a,用于对文本集合进行分词并去掉停用词,得到独立的特征词组;词语权重计算单元301b,用于计算文本集合的特征词的权重。其中,分词单元301a中,停用词指如“的”、“和”和“在”等一些介词、语气助词或是非常常用的字词。分词过程可以用已有或未来专利技术的方法进行,本实施例中不对其进行限制。其中,词语权重计算单元301b,从分词单元301a保存的文件中读出分词信息,统计词频并计算得出特征词的权重,将每个文本集合特征词及其权重以向量的形式保存在文本文档中。在本实施例中,使用在信息检索和文本挖掘时经常使用的加权技术TF-1DF(termfrequency-1nverse d ocument frequency)。所述的相似度计算模块302包括: 计算模型构建单元302a,用于通过标注的文本语料计算出用于文本集合相似度计算的模型;计算单元302b,用于利用构建出的相似度计算模型和通过预处理模块301得到的文本集合特征词及其权重,计算文本集合的相似度。以下是一种可能的实施方式:计算模型构建单元302a利用Leaning to Rank的方法,获得文本相似度计算的模型。使用康奈尔大学计算机系开发的SVMrank工具包进行模型的构建,采用两个文本集合的含权重特征词组的余弦相似度、共同特征词个数、共同特征词个数分别与两个特征词组的大小比值这4个特征作为构建参数。然后,相似度计算单元302b基于构建的模型和待计算相似性的两个文本集合的含权重特征词组,利用SVMm4工具I包计算出两组特征词的相似度V。在本实施例中,定义文本集合的相似度》S =——17。I + β所述的可视化模块303,包括:布局计算单元303a,用于利用文本相似度值s和文本集合的含权重特征词组,计算出每个特征词在图形展示中的大小和位置等布局信息;图形界面单元303b,用于利用计算出的布局信息生成图片,显示在浏览设备中。其中,在本实施例中,布局计算单元303a计算出的布局信息特点描述如下:1.特征词整体分布呈椭圆形,字体越大,位置越靠原点;2.共同特征词以颜色I表示,字体大小与特征词的本文档来自技高网...

【技术保护点】
一种文本集合相似性的可视化方法,其特征在于,所述方法包括:?对文本集合进行预处理,以得到文本集合的特征词及特征词的权重;?对文本集合的相似度进行计算;?对文本集合的相似性进行可视化。

【技术特征摘要】
1.一种文本集合相似性的可视化方法,其特征在于,所述方法包括: 对文本集合进行预处理,以得到文本集合的特征词及特征词的权重; 对文本集合的相似度进行计算; 对文本集合的相似性进行可视化。2.根据权利要求1所述的方法,其特征在于,所述预处理包括: 将文本集合中的句子切分成词;去除停用词得到文本集合的特征词;并通过出现频次计算得到特征词的权重。3.根据权利要求1所述的方法,其特征在于,所述对文本集合的相似度进行计算,具体包括: 构建用于文本集合相似度计算的模型;利用构建出的相似度计算模型和通过预处理得到的文本集合的特征词及其权重,计算文本集合的相似度。4.根据权利要求3所述的方法,其特征在于,所述模型使用康奈尔大学计算机系开发的SVMm4工具包进行构建,采用两个文本集合的含权重特征词组的余弦相似度、共同特征词个数、共同特征词个数分 别与两个特征词组的大小比值这4个特征作为构建参数,然后, 利用SVMrank工具包计算出两组特征词的相似度V,文本集合的相似度5.根据权利要求1至4任一权利要求所述的方法,其特征在于,所述对文本集合的相似性进行可视化包括: 计算特征词在图形展示中布局信息;利用计算出的布局信息图形化展示文本集合的相似性。6.根据权利要求5所述的方法,其特征在于,所述图形化展示的视觉特点为: 特征词整体分布呈椭圆形,字体越大,位置越靠近原点;共同特征词以颜色I表示,字体大小与特征词的权重以及文本集合A与B的相似度大小相关,并且比非共同特征词字体大,以突显共同特征词;文本集合A的非共同特征词以颜色2表示,字体大小与特征词的权重相关;文本集合B的非共同特征词以颜色3表示,字体大小与特征词的权重相关;文本集合A和B的非共同特征词的边界,在保证...

【专利技术属性】
技术研发人员:唐家渝孙茂松刘知远
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1