一种文本维度压缩及尺度调整方法以及基于此的分类方法技术

技术编号:2912354 阅读:304 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文本维度压缩及尺度调整方法,包括下列步骤:1) 用特征空间的特征向量表示文本xj;2)根据训练集中的样本x计算文本 xj待投影的k个方向,其中k为文本xj所属语料的类别个数;3)将文本 xj投影到该k个方向,表示为(xj,1N,…,xj,iN,…,xj,kN),其中1≤i≤k;4)根据训 练集中的样本x计算每个类Ci在对应方向上投影的尺度相关统计量;5) 根据所述(xj,1N,…,xj,iN,…,xj,kN)和所述尺度相关统计量,计算所述文本xj的新 的表示(xj,1R,…,xj,iR,…,xj,kR)。根据本发明专利技术的文本维度压缩及尺度调整方法对 文本空间进行处理,不仅降低了语料的维度,还使语料的分布更为合理, 该方法的应用使文本分类的精度有效提高。

【技术实现步骤摘要】

本专利技术涉及信息检索领域和文本挖掘领域,进一步地,涉及一种文本维度压缩及尺度调整方法以及基于此的分类方法
技术介绍
随着计算机技术的发展、网络得以普及并迅猛发展,互联网上的内容也呈爆炸性增长。根据CNNIC的统计,截至2008年1月,中国网页数目已达84.7亿个,总字节数已达198,348GB。网页规模急剧增长的互联网,在为人们提供更加丰富的信息服务的同时,也给人们带来了如何高速有效获取有用信息的困惑。文本分类作为一种重要的文本分析及组织技术,应用到了信息检索的各个方面,以期为用户提供一种有效的文本组织和管理形式。具体而言,文本分类是一种有指导的(supervised)文本分析算法,它利用训练集里带类别标签的文本训练分类模型,并用训练好的分类模型去判断测试集中各个文本的所属类别。迄今为止,关于分类算法的研究已较为成熟,研究者提出的分类算法也多种多样,如决策树、贝叶斯分类器、K近邻、SVM分类器等。在文本分类领域,分类算法的性能通常受到两个重要因素的影响:一个因素为文本高维特性所带来的“维度灾难(curse of dimensionality)”;另一个因素为算法模型的理想假定与本文档来自技高网...

【技术保护点】
一种文本维度压缩及尺度调整方法,包括下列步骤: 1)用特征空间的特征向量表示文本x↓[j]; 2)根据训练集中的样本x计算所述文本x↓[j]待投影的k个方向,其中k为文本x↓[j]所属语料的类别个数; 3)将所述文本x↓[j]投影到所述k个方向,表示为(x↓[j,i]↑[N],…,x↓[j,i]↑[N],…,x↓[j,k]↑[N]),其中l≤i≤k; 4)根据训练集中的样本x计算每个类C↓[i]在对应方向上投影的尺度相关统计量; 5)根据所述(x↓[j,i]↑[N],…,x↓[j,i]↑[N],…,x↓[j,k]↑[N])和所述尺度相关统计量,计算所述文本x↓[j]的新的表示(x↓[j,i]↑...

【技术特征摘要】
1.一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本xj;2)根据训练集中的样本x计算所述文本xj待投影的k个方向,其中k为文本xj所属语料的类别个数;3)将所述文本xj投影到所述k个方向,表示为(xj,1R,...,xj,iR,...,xj,kR).]]>其中1≤i≤k;4)根据训练集中的样本x计算每个类Ci在对应方向上投影的尺度相关统计量;5)根据所述(xj,1R,...,xj,iR,...,xj,kR).]]>和所述尺度相关统计量,计算所述文本xj的新的表示(xj,1R,...,xj,iR,...,xj,kR).]]>2.根据权利要求1所述的方法,其特征在于,所述步骤4)的所述尺度相关统计量是标准差σi;所述步骤5)包括根据下述公式计算:xj,iR=xj,iNσi.]]>3.根据权利要求1或2所述的方法,其特征在于,所述步骤2)包括:21)根据公式mi=1niΣx∈Cix]]>计算每个...

【专利技术属性】
技术研发人员:曾依灵许洪波吴高巍
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1