一种多标签文本分类方法及系统技术方案

技术编号：12653677 阅读：40 留言：0更新日期：2016-01-06 11:37

本发明专利技术公开了一种多标签文本分类方法及系统，包括：针对待分类文档确定待考核标签子集；对待分类文档进行分词处理；获取当前计算字词相应于当前考核标签子集中各标签的似然度；对当前计算字词相应于当前考核标签子集中各标签的似然度进行线性加权，得到当前计算字词相应于当前考核标签子集的加权似然度；确定进行线性加权的各加权系数，使得所有字词的加权似然度的连乘积最大，并将最大的连乘积作为待分类文档相应于当前考核标签子集的似然度；在待考核标签子集中，选取使得后验概率最大的标签子集作为待分类文档的分类结果。本发明专利技术的多标签分类方法及系统相对现有多标签分类方法及系统兼具总体性能高及计算量小的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本分类领域，尤其涉及一种多标签文本分类方法及系统。
技术介绍
近年来，随着互联网的高速发展，尤其是移动互联网时代的到来，人类进入大数据时代，每天都会产生海量的数据，因此对海量数据进行分析、获取有价值的信息已成为学术界和工业界共同关心的热点。作为海量数据的主要外在形式，文本相关的处理技术受到了人们的极大关注，文本分类技术也进入了一个新的发展阶段。传统文本分类技术主要关注单标签分类，即一个文本对应一个类别标签。然而现实生活中，一个文本的类别标签往往不止一个，如一篇介绍某个国家经济的文章，很可能同时会涉及政治和文化，此时该文章应该同时至少对应经济、政治、文化等三个标签；一篇体育赛况报道相关的文章，很可能也会有较大篇幅介绍某位体育明星，因此它应该至少包含体育赛况、体育明星两个标签。由此可见，多标签分类可以提供更加丰富的分类信息，为后续可能的应用，如文本分类管理、监控、过滤等等，提供更大的帮助，因此，多标签分类问题，即对一篇文档给出多个标签具有实际意义。在此，最理想的多标签分类方法是针对多标签的各个标签子集分别建模，确定各标签子集的概率模型；随后对待分类文档，依次计算其相应于所有多标签子集的后验概率，最后选择后验概率最大的多标签子集作为文档的分类结果。然而，多标签子集的数量随多标签数目的增多呈指数级增长，假设一个多标签分类问题中多标签的个数为K，则理论上总的多标签子集的个数为2K-1，当K的数值较大时，由于多标签子集的数量巨大，对所有子集分别构建模型是不现实的。基于上述原因，在多标签分类问题上，传统的...
一种多标签文本分类方法及系统

【技术保护点】
一种多标签文本分类方法，其特征在于，包括：针对接收到的待分类文档确定待考核标签子集；对所述待分类文档进行分词处理，得到各字词；从所述待考核标签子集中依次提取一个标签子集作为当前考核标签子集；从所述各字词中依次提取一个字词作为当前计算字词；获取所述当前计算字词相应于所述当前考核标签子集中各标签的似然度；对所述当前计算字词相应于所述当前考核标签子集中各标签的似然度进行线性加权，得到所述当前计算字词相应于所述当前考核标签子集的加权似然度；确定进行线性加权的各加权系数，使得所有字词相应于所述当前考核标签子集的加权似然度的连乘积最大，并将最大的连乘积作为所述待分类文档相应于所述当前考核标签子集的似然度，其中，对于所有字词的各加权系数与所述当前考核标签子集中的标签一一对应，且各加权系数之和等于1；根据所述待分类文档相应于所述当前考核标签子集的似然度，计算所述待分类文档相应于所述当前考核标签子集的后验概率；在所述待考核标签子集中，选取使得所述后验概率最大的标签子集作为所述待分类文档的分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：贺志阳，吴及，吕萍，何婷婷，乔玉平，胡国平，胡郁，
申请(专利权)人：清华大学，科大讯飞股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人