当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于聚类分析的文档数据分类方法技术

技术编号:17467510 阅读:39 留言:0更新日期:2018-03-15 05:02
本发明专利技术公开了一种基于聚类分析的文档数据分类方法,主要弥补在目前文档分类问题中,及现有技术使用相同的特征在不同的主题上进行预测而产生的性能不足问题。该方法包括以下步骤:(1)用户从已有的文档库中选择样例文档,其中每个文档都具备多个主题;(2)通过本发明专利技术提出的方法将选取的文档的初始特征针对每一种主题转化为新的特征;(3)对每一类主题,在新的特征上学习得到分类模型;(4)基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果;(5)如果用户对分类结果满意,则执行步骤6,否则从文档库中选择更多的查询图像进行反馈,执行步骤2;(6)结束。

【技术实现步骤摘要】
一种基于聚类分析的文档数据分类方法
本专利技术涉及一种基于聚类分析的文档数据分类方法,含有多主题的弱监督文档数据处理

技术介绍
如今互联网技术正处于高速蓬勃发展之中,随之而来的是信息量的爆发。web文档的数量正呈现出指数级增长的趋势,文档数据的管理和分类已然成为一个重要的研究课题。文档分类技术是一种高效地对未分类文档进行归类的技术,该方法根据用户提交给分类装置的样例文档,对文档库中未被分类的文档进行快速、准确地分类。一种行之有效的策略是将分类过程看成学习的过程,使用机器学习的技术对用户提交的样例文档进行学习,最终得到一个分类模型。最后使用这个经过训练得到的模型对文档进行分类。一篇文档通常具备大量的词汇,并对应多种主题。现有的文档分类技术往往受限于大量文本词汇所带来的维度灾难,并使用相同的特征在所有主题上进行训练学习。而不同主题通常更关注于不同的特征,使用相同的特征对其进行预测往往无法取得较好的结果。
技术实现思路
专利技术目的:针对目前文档分类问题中,现有技术使用相同的特征在不同的主题上进行预测而产生的性能不足问题。本专利技术提出一种基于聚类分析的文档数据分类方法,旨在利用聚类本文档来自技高网...
一种基于聚类分析的文档数据分类方法

【技术保护点】
一种基于聚类分析的文档数据分类方法,其特征在于,该方法包括以下步骤:(1)用户从已有的文档库中选择样例文档,其中每个文档都具备多个主题;(2)将选取的文档的初始特征针对每一种主题转化为新的特征;(3)对每一类主题,在新的特征上学习得到最终分类模型;(4)基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果;(5)如果用户对分类结果满意,则执行步骤6,否则从文档库中选择更多的查询图像进行反馈,执行步骤2;(6)结束。

【技术特征摘要】
1.一种基于聚类分析的文档数据分类方法,其特征在于,该方法包括以下步骤:(1)用户从已有的文档库中选择样例文档,其中每个文档都具备多个主题;(2)将选取的文档的初始特征针对每一种主题转化为新的特征;(3)对每一类主题,在新的特征上学习得到最终分类模型;(4)基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果;(5)如果用户对分类结果满意,则执行步骤6,否则从文档库中选择更多的查询图像进行反馈,执行步骤2;(6)结束。2.根据权利要求1中所述的基于聚类分析的文档数据分类方法,其特征在于,步骤2将选取的文档的初始特征针对每一种主题转化为新的特征,具体包括:假设用户选取的查询文档对应于集合D={(xi,Yi)|1≤i≤N},其中Yi为文档样本xi所对应的主题集合,T为所有可能的主题个数。对每种主题t(1≤t≤T),分别在正类样本和负类样本上进行聚类分析,每个主题上得到聚类结果通过使用其他主题上的聚类结果得到优化;假设在第t个主题上得到的聚类结果的聚类中心为则将更新的聚类结果通过样本到这些聚类中心的距离来构建映射,从而将原d维特征xi=[xi1,xi2,…,xid]转化为新的d′维特征zi=[zi1,zi2,…,zid′];其中第j项为:为每个主题在得到的新特征上训练分类模型,并利用得到的分类模型为待分类文档进行分类预测,最终输出分类结果。3.根据权利要求2中所述的...

【专利技术属性】
技术研发人员:张敏灵詹望
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1