【技术实现步骤摘要】
本专利技术涉及信息检索领域和文本挖掘领域,进一步地,涉及一种文本维度压缩及尺度调整方法以及基于此的分类方法。
技术介绍
随着计算机技术的发展、网络得以普及并迅猛发展,互联网上的内容也呈爆炸性增长。根据CNNIC的统计,截至2008年1月,中国网页数目已达84.7亿个,总字节数已达198,348GB。网页规模急剧增长的互联网,在为人们提供更加丰富的信息服务的同时,也给人们带来了如何高速有效获取有用信息的困惑。文本分类作为一种重要的文本分析及组织技术,应用到了信息检索的各个方面,以期为用户提供一种有效的文本组织和管理形式。具体而言,文本分类是一种有指导的(supervised)文本分析算法,它利用训练集里带类别标签的文本训练分类模型,并用训练好的分类模型去判断测试集中各个文本的所属类别。迄今为止,关于分类算法的研究已较为成熟,研究者提出的分类算法也多种多样,如决策树、贝叶斯分类器、K近邻、SVM分类器等。在文本分类领域,分类算法的性能通常受到两个重要因素的影响:一个因素为文本高维特性所带来的“维度灾难(curse of dimensionality)”;另一个因素为 ...
【技术保护点】
一种文本维度压缩及尺度调整方法,包括下列步骤: 1)用特征空间的特征向量表示文本x↓[j]; 2)根据训练集中的样本x计算所述文本x↓[j]待投影的k个方向,其中k为文本x↓[j]所属语料的类别个数; 3)将所述文本x↓[j]投影到所述k个方向,表示为(x↓[j,i]↑[N],…,x↓[j,i]↑[N],…,x↓[j,k]↑[N]),其中l≤i≤k; 4)根据训练集中的样本x计算每个类C↓[i]在对应方向上投影的尺度相关统计量; 5)根据所述(x↓[j,i]↑[N],…,x↓[j,i]↑[N],…,x↓[j,k]↑[N])和所述尺度相关统计量,计算所述文本x↓[j]的新的表 ...
【技术特征摘要】
1.一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本xj;2)根据训练集中的样本x计算所述文本xj待投影的k个方向,其中k为文本xj所属语料的类别个数;3)将所述文本xj投影到所述k个方向,表示为(xj,1R,...,xj,iR,...,xj,kR).]]>其中1≤i≤k;4)根据训练集中的样本x计算每个类Ci在对应方向上投影的尺度相关统计量;5)根据所述(xj,1R,...,xj,iR,...,xj,kR).]]>和所述尺度相关统计量,计算所述文本xj的新的表示(xj,1R,...,xj,iR,...,xj,kR).]]>2.根据权利要求1所述的方法,其特征在于,所述步骤4)的所述尺度相关统计量是标准差σi;所述步骤5)包括根据下述公式计算:xj,iR=xj,iNσi.]]>3.根据权利要求1或2所述的方法,其特征在于,所述步骤2)包括:21)根据公式mi=1niΣx∈Cix]]>计算每个...
【专利技术属性】
技术研发人员:曾依灵,许洪波,吴高巍,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。