【技术实现步骤摘要】
(一)
本专利技术涉及一种变粒度文本聚类的特征量化技术。(二)
技术介绍
近年来,可以很容易地从各种渠道获得数目惊人的文本文档。因此人们对发展能够帮助用户有效地导航、组织和总结这些文本信息技术的兴趣越来越强。高质量的文本聚类技术在实现这个目标过程中扮演了重要的角色。通过将大量信息组织成少数有意义的簇,使人们可以从宏观的角度来观察数据。这种技术能够提供导航和浏览机制,从而极大地改善检索性能。面向互联网应用的文本聚类已经成为正在崛起并迅速被市场所认可的技术。例如,由美国CMU大学3名计算机科学家于2000年创立的聚类检索公司VIVISIMO中采用的文本聚类核心技术(http://vivisimo.com/)已经转让给包括波音公司、Airbus、USA.gov、Procter and Gamble等数百家用户,其中多数为全球财富五百强企业。美国著名企业家布莱德·格林斯潘投资创办的聚类检索系统BBMAO(http://www.bbmao.com)也有着独特的技术特色,目前正在迅速占领市场,并刚刚于2006年在中国登陆。再例如,YAHOO中国公司等门户网站每天都要获得大量的 ...
【技术保护点】
一种变粒度文本聚类的特征量化方法,其特征在于它通过下述步骤实现:1)文档关键词的概念扩展,利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合;2)特征表示和相似度计算:词与词之间的相似度为其公共特征的重合度有多大,文本聚类应用中文档之间以及文档簇之间的相似度大小也可以通过考察文档之间公共特征的多少来判定;3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用,达到变粒度聚类的效果。
【技术特征摘要】
1、一种变粒度文本聚类的特征量化方法,其特征在于它通过下述步骤实现:1)文档关键词的概念扩展,利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合;2)特征表示和相似度计算:词与词之间的相似度为其公共特征的重合度有多大,文本聚类应用中文档之间以及文档簇之间的相似度大小也可以通过考察文档之间公共特征的多少来判定;3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用,达到变粒度聚类的效果。2、根据权利要求1所述的一种变粒度文本聚类的特征量化方法,其特征在于所述的通过综合单纯基于词频的相似度和基于特征扩展策略的相似度来计算两篇文档的综合相似度,定义文档d1和d2的综合相似度sim(d1,d2)为sim(d1,d2)=γ*sfm1(d1,d2)+(1-γ)sim2(d1,d2)。3、根据权利要求1所述的一种变粒度文本聚类的特征量化方法,其特征在于所述的每个...
【专利技术属性】
技术研发人员:刘远超,刘铭,王晓龙,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:93[中国|哈尔滨]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。