一种变粒度文本聚类的特征量化方法技术

技术编号:2914320 阅读:245 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种变粒度文本聚类的特征量化方法,它通过下述步骤实现:1)文档关键词的概念扩展,利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合;2)特征表示和相似度计算:词与词之间的相似度可以理解为其公共特征的重合度有多大。文本聚类应用中文档之间(以及文档簇之间)的相似度大小也可以通过考察文档之间公共特征的多少来判定。3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用,达到变粒度聚类的效果。本发明专利技术克服了已有的文档聚类系统由于特征量化不当导致的变粒度聚类时聚类效果较差的弊端。

【技术实现步骤摘要】
(一)
本专利技术涉及一种变粒度文本聚类的特征量化技术。(二)
技术介绍
近年来,可以很容易地从各种渠道获得数目惊人的文本文档。因此人们对发展能够帮助用户有效地导航、组织和总结这些文本信息技术的兴趣越来越强。高质量的文本聚类技术在实现这个目标过程中扮演了重要的角色。通过将大量信息组织成少数有意义的簇,使人们可以从宏观的角度来观察数据。这种技术能够提供导航和浏览机制,从而极大地改善检索性能。面向互联网应用的文本聚类已经成为正在崛起并迅速被市场所认可的技术。例如,由美国CMU大学3名计算机科学家于2000年创立的聚类检索公司VIVISIMO中采用的文本聚类核心技术(http://vivisimo.com/)已经转让给包括波音公司、Airbus、USA.gov、Procter and Gamble等数百家用户,其中多数为全球财富五百强企业。美国著名企业家布莱德·格林斯潘投资创办的聚类检索系统BBMAO(http://www.bbmao.com)也有着独特的技术特色,目前正在迅速占领市场,并刚刚于2006年在中国登陆。再例如,YAHOO中国公司等门户网站每天都要获得大量的新闻和知识文档,需要上站。但这些信息的自动组织成为难题,以往一般是需要人力完成。所谓文本聚类中的粒度,是指聚类处理生成的每个文档簇内部的文档之间的相似度情况,如果要求内部相似度必须较大,则一般会导致生成的文档簇的数目较多,且每个文档簇内部的文档数较少;如果要求内部相似度较小,则一般会导致生成的文档簇的数目较少,且每个文档簇内部的文档数较多。前者相当于在较小粒度下观察数据,后者相当于在较大粒度下观察数据。在文档数目较多的情况下,用户更喜欢从较宏观(大粒度)的角度观察数据,此时聚类处理的价值更加明显和突出。很多文本聚类方法目前普遍采用的词频VSM建模方法在较大粒度聚类情况下,由于对语言现象不够敏感,难以捕捉到文档之间的共性特征,将导致聚类结果出现较多失误。因为在大粒度情况下,用户期望从更宏观的角度观察数据,此时原本彼此具有较少显式共性特征但语义关系密切的文档需要被划分到同一文档簇中,因此对语义的分析和共性知识的挖掘就显得非常必要。而在较小粒度的聚类情况下,由于分了较多的类,为了快速导航和浏览这些信息,也有必要考虑类间的关系,并尽可能将关系密切的类放在一起。(三)
技术实现思路
本专利技术的目的在于提供一种能够克服现有技术由于特征量化不当导致不同粒度下,特别-->是较大粒度下文本聚类效果较差弊端的变粒度文本聚类的特征量化技术。本专利技术通过下述步骤实现:1)文档关键词的概念扩展。利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合。例如,如果文档中出现“花卉”、“兰花”、“杜鹃”、“茶花”、“玫瑰”、“水仙”、“菊花”、“喇叭花”、“夹竹桃”、“灯芯草”之一,则由于其都可以视为一种花卉,因此可以映射为“花卉”一词;2).特征表示和相似度计算:词与词之间的相似度可以理解为其公共特征的重合度有多大。文本聚类应用中文档之间(以及文档簇之间)的相似度大小也可以通过考察文档之间公共特征的多少来判定。3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用,达到变粒度聚类的效果。本专利技术还有这样一些技术特征:1、所述的通过综合单纯基于词频的相似度和基于特征扩展策略的相似度来计算两篇文档的综合相似度,定义文档d1和d2的综合相似度sim(d1,d2)为sim(d1,d2)=γ*sim1(d1,d2)+(1-γ)sim2(d1,d2);2、所述的每个神经元在两种不同特征空间上的向量构造与标准SOM方法完全相同,即都初始化为随机小数构成的向量,在模型训练过程中网络结构的动态更新时,网络结构调整和神经元向量的调整反映的是两个不同空间的语义相似度的线型加权值,模型训练结束后,每个神经元对应两个向量,一个为这个神经元节点所映射的全部文档词频向量的均值;另外一个是这个神经元节点所映射的全部特征扩展向量的均值;3、所述的文档语义特征扩展的具体措施可以为:1)找到文中重要的内容词,找到每个重要内容词所映射的上位概念,将其上位概念词放到概念向量中;2)将每个重要内容词的领域相关词,将领域相关的代表词放到概念向量中;4、所述的词一级的语义扩展主要利用词的相似性和相关性,将具有同义或者近义关系的词扩展为一个公共词,而具有较强相关性的词则扩展为能覆盖其公共特征的词。本专利技术的技术特点有:一、利用知识词典,给出上位概念词扩展和相关词扩展技术;二、基于步骤一的词扩展方法,从文档中抽取出若干关键词进行语义扩展并据此构造扩展特征空间;三、在聚类中融入扩展特征相似度,以提高聚类系统的语义敏感能力,较好的应对由于语言表达复杂多样性所带来的不利影响,满足在不同粒度下观察文本信息的要求;四、给出了特征量化技术与具体聚类算法相结合的具体措施。本专利技术的方法采用了语义扩展技术,其基本原理是对文档中提取的若干关键词(小于10-->个)进行上位概念扩展或者相关性映射,由于相同文档或者不同文档中的不同词映射的上位概念词可能会相同,且相关性映射存在对称关系,因此扩展特征空间的维数远小于传统特征空间,使得本专利技术方法不但可以较好的取得变粒度聚类的实际效果,且其对聚类效率影响也被降低到最低点。本专利技术的方法克服了传统文本聚类方法采用VSM(vector space model,向量空间模型)方法由于量化过于粗糙导致变粒度文本聚类效果较差的问题。一个明显的进步是在较大粒度聚类情况下,聚类F值较同类方法有明显提高。聚类F值的计算方法:用聚类F值对文档聚类的综合质量进行评价。对于聚类生成的某一个聚类类别r和原来的预定类别s,召回率recall和精确率precision的定义分别为:recall(r,s)=n(r,s)/ns              (1)precision(r,s)=n(r,s)/nr           (2)其中n(r,s)是聚类后的类别r和预定义类别s中的公共文档个数。nr是聚类类别r中的文档个数,ns是预定义类别s中的文档个数。定义F(r,s)为F(r,s)=(2*recall(r,s)*precision(r,s))/((precison(r,s)+recall(r,s))        (3)则聚类结果的总体评价函数为F=Σininmax{F(i,j)本文档来自技高网
...

【技术保护点】
一种变粒度文本聚类的特征量化方法,其特征在于它通过下述步骤实现:1)文档关键词的概念扩展,利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合;2)特征表示和相似度计算:词与词之间的相似度为其公共特征的重合度有多大,文本聚类应用中文档之间以及文档簇之间的相似度大小也可以通过考察文档之间公共特征的多少来判定;3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用,达到变粒度聚类的效果。

【技术特征摘要】
1、一种变粒度文本聚类的特征量化方法,其特征在于它通过下述步骤实现:1)文档关键词的概念扩展,利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合;2)特征表示和相似度计算:词与词之间的相似度为其公共特征的重合度有多大,文本聚类应用中文档之间以及文档簇之间的相似度大小也可以通过考察文档之间公共特征的多少来判定;3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用,达到变粒度聚类的效果。2、根据权利要求1所述的一种变粒度文本聚类的特征量化方法,其特征在于所述的通过综合单纯基于词频的相似度和基于特征扩展策略的相似度来计算两篇文档的综合相似度,定义文档d1和d2的综合相似度sim(d1,d2)为sim(d1,d2)=γ*sfm1(d1,d2)+(1-γ)sim2(d1,d2)。3、根据权利要求1所述的一种变粒度文本聚类的特征量化方法,其特征在于所述的每个...

【专利技术属性】
技术研发人员:刘远超刘铭王晓龙
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1