一种基于集成层次聚类的文本知识合成的方法技术

技术编号:16102007 阅读:63 留言:0更新日期:2017-08-29 22:36
本发明专利技术公开了一种基于集成层次聚类的文本知识合成的方法,所述方法包括:步骤一,对文本数据集合进行结构化处理,产生一个词文本矩阵;步骤二,从词文本矩阵中分离不同分类标准下的文本向量,并对对应的词文本矩阵分别进行层次聚类,得到多个基于词的层次聚类结果;步骤三,对各层次聚类结果进行ultra‑metric转换,得到多个满足ultra‑metricity的距离矩阵;步骤四,对任意一组或全部的步骤3转换后的层次聚类结果进行集成,得到统一的层次聚类结果,实现了能高效对多个类别的知识进行集成,对文本挖掘、信息检索提供有效支撑的技术效果。

【技术实现步骤摘要】
一种基于集成层次聚类的文本知识合成的方法
本专利技术涉及基于集成层次聚类的文本知识合成的方法的数据挖掘
,尤其是涉及集成多个文本集合内的词的层次聚类结果的方法。
技术介绍
词作为描述文本的基本单元,是对非结构化文本进行结构化描述的基本方法。通常一类文本中出现过的词,是对这个类别的知识信息进行结构化描述的基本要素。一组(对)词语共同出现在一类文章中的次数,代表了这组(对)词语在该类别下的相关程度。在很多情况下,对一个文本集合下的各个词语进行层次聚类得到的树状结构图,蕴含了该文档集合的重要信息。这样的树状结构在信息检索领域中对提升垂直搜索引擎(VerticalSearchEngine)的精度、提高开发定向爬虫(FocusedCrawler)的效率都有很重要的作用。在实际应用中,对文本的分类方式复杂多变,每个类别下的文档集合都可以产生一个词的层次聚类结果。然而,在目前的文本分析和信息检索方向上,尚没有利用集成层次聚类合成多个领域知识的方法。综上所述,本申请专利技术人在实现本申请专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:在现有技术中,现有的数据挖掘中的层次聚类分析方法本文档来自技高网...
一种基于集成层次聚类的文本知识合成的方法

【技术保护点】
一种基于集成层次聚类的文本知识合成的方法,其特征在于,所述方法包括:步骤一,对文本数据集合进行结构化处理,产生一个词文本矩阵;步骤二,从词文本矩阵中分离不同分类标准下的文本向量,并对对应的词文本矩阵分别进行层次聚类,得到多个基于词的层次聚类结果;步骤三,对各层次聚类结果进行ultra‑metric转换,得到多个满足ultra‑metricity的距离矩阵;步骤四,对任意一组或全部的步骤3转换后的层次聚类结果进行集成,得到统一的层次聚类结果。

【技术特征摘要】
1.一种基于集成层次聚类的文本知识合成的方法,其特征在于,所述方法包括:步骤一,对文本数据集合进行结构化处理,产生一个词文本矩阵;步骤二,从词文本矩阵中分离不同分类标准下的文本向量,并对对应的词文本矩阵分别进行层次聚类,得到多个基于词的层次聚类结果;步骤三,对各层次聚类结果进行ultra-metric转换,得到多个满足ultra-metricity的距离矩阵;步骤四,对任意一组或全部的步骤3转换后的层次聚类结果进行集成,得到统一的层次聚类结果。2.根据权利要求1所述的基于集成层次聚类的文本知识合成的方法,其特征在于,所述步骤一具体包括:对文本数据集合进行结构化处理,将文本中的特征词作为描述文本特征,形成词向量,每一篇文本用一个词向量描述,整个文档集合描述为一个词文本矩阵,结构化处理包括:分词处理、去停用词处理。3.根据权利要求1所述的基于集成层次聚类的文本知识合成的方法,其特征在于,所述步骤二具体包括:对文本数据集合中属于不同类别的文本进行区分,形成s个文本子集合:D1,D2,…,Ds属于D;分别对D1,D2,…,Ds计算词与词两两...

【专利技术属性】
技术研发人员:郑理
申请(专利权)人:成都智库二八六一信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1