对文档进行分类的方法及装置制造方法及图纸

技术编号：3844693 阅读：363 留言：0更新日期：2012-04-11 18:40

本发明专利技术实施例提供了一种对文档进行分类的方法及装置。该方法主要包括：基于待分类文档的各个目标类对应的知识信息，对所述待分类文档的文本信息和词语集合进行协同聚类处理，获得所述待分类文档的词语聚类结果和知识信息聚类结果。然后，将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组或者与所述知识信息聚类结果进行相似度计算，根据所述相似度计算的结果对所述待分类文档进行分类。本发明专利技术实施例通过基于知识监督的协同聚类算法和相似度计算方法，完成待分类文挡的分类过程，从而避开了传统的分类方法中的人工标注大规模的训练语料数据的环节。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及信息
，尤其涉及一种对文档进行分类的方法及装置。
技术介绍
随着互联网的快速发展，互联网上出现了海量的、异质的Web (网络)信息资源，其中Web文本信息占了主要地位。如何从庞大的web文本信息中获得高质量的准确信息，并有效地加以利用已经成为一个重要的研究课题。Web文本分类技术作为web信息挖掘的关键部分得到了人们的广泛关注。web文本分类技术带来的各种应用已经广泛到应用到多个领域，比如新闻出版按照栏目分类，实现通过新闻内容自动对新闻分类，如政治、体育、军事、...；通过对用户的网页浏览历史记录分类获得用户的兴趣爱好，实现个性化新闻推荐、个性化广告等相关个性化推荐；对邮件内容进行分析归类实现垃圾邮件的过滤。现有技术中的第一种对文档进行分类的方法为采用相似度模型、概率模型、线性模型、非线性模型和组合模型等模型的传统分类方法。该传统分类方法需要人工标注大量训练语料，人工标注的训练语料的优劣直接影响到分类器的性能指标。人工标注训练语料指通过人为判断整理得到属于某个类的文档集合。通过人工标注的大量训练语料来训练分类器模型，当分类器模型训练好后，就可以用分类器模型对待分类文档进行文本分类了。在实现本专利技术过程中，专利技术人发现上述现有技术中的第一种对文档进行分类的方法中至少存在如下问题训练语料的获取需要大量的专业领域的人工整理和收集工作，在很大程度上提高了文本分类的成本。现有技术中用提前收集整理的训练语料得到的分类器很难对新生事物进行正确的分类，该方法分类的成本和投入较高，效率不高。
技术实现思路
本专利技术的...

【技术保护点】
一种对文档进行分类的方法，其特征在于，包括：基于待分类文档的各个目标类对应的知识信息，对所述待分类文档的文本信息和词语集合进行协同聚类处理，获得知识信息聚类结果和所述待分类文档的词语聚类结果；将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算，得到第一计算结果；或者，将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算，得到第二计算结果；根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员：薛贵荣，刘存伟，黄西华，万嘉，陆元飞，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人