一种基于概念分解的半监督文档分类方法及系统技术方案

技术编号:12346056 阅读:61 留言:0更新日期:2015-11-18 18:38
本发明专利技术公开了一种基于概念分解的半监督文档分类方法,包括:对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;利用算法接收参数K对原始数据的低维近似矩阵进行聚类,得到聚类结果;利用精确度和互信息两种评价标准对所述聚类结果进行评价。本发明专利技术基于概念分解,不仅考虑了原始数据的邻域保持特性,同时还考虑了数据点相似在原始空间和低维流形空间的一致性,以及约束对在原始空间和转换空间的约束保持,使得聚类性能不仅在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。本发明专利技术还公开了一种基于概念分解的半监督文档分类系统。

【技术实现步骤摘要】

本专利技术涉及文档分类
,尤其涉及一种基于概念分解的半监督文档分类方 法及系统。
技术介绍
近年来矩阵分解技术在模式识别和机器学习中受到越来越广泛的关注。在许多诸 如计算机视觉和模式识别的问题中,数据的维数都很高,处理这类数据需要更多的时间和 空间。更重要的是,高维数据使得原本在低维空间简单可行的分类、聚类、检索等学习任务 也变得困难重重。因此,对高维数据矩阵进行分解,得到分解后的高维数据的低维表达成为 近期的研究热点。非负矩阵分解(nonnegative matrix factorization,,NMF)在处理像人 脸和文档等非负数据时有特别的优势。但是非负矩阵分解的一个不足之处是很难在投影空 间如再生核希尔伯特空间有效的执行NMF。 概念分解(concept factorization,CF)克服了 NMF算法的上述不足同时继 承了 NMF方法的优点。概念分解是对矩阵Xe Rwx"分解,找到两个因子矩阵Weirx4和 Ve政"#,使得wv的乘积尽可能的和原来的矩阵近似,其中V可以看作是原来矩阵X的低 维表示。聚类的结果可以通过低维表达V导出。局部一致性原理指本文档来自技高网...

【技术保护点】
一种基于概念分解的半监督文档分类方法,其特征在于,包括:对原始数据矩阵作分解,将数据转换到低维空间,得到既有邻域保持、相似性保持以及约束保持的原始数据在低维空间的近似矩阵;利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;利用精确度和互信息两种评价标准对所述聚类结果进行评价。

【技术特征摘要】

【专利技术属性】
技术研发人员:路梅赵向军李凡长张莉
申请(专利权)人:苏州大学张家港工业技术研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1