当前位置: 首页 > 专利查询>清华大学专利>正文

一种文本自动分类方法技术

技术编号:2876405 阅读:221 留言:0更新日期:2012-04-11 18:40
一种文本自动分类方法属于文本自动分类技术领域,其特征在于:它把二元权重计算方法引入到基于向量空间模型(VSM)的线性分类器,并结合复杂的非二元权重对二元权重进行平滑,以便一次性地对所有文本进行自动分类;它在构建线性分类器时,用可调系数k来调整非二元权重的平滑能力。它的分类准确率比只用二元权重的或者只用非二元权重的都要高,它在不同数量的特征集上都具有很高的分类准确率,而且用不同的非二元权重方法进行平滑的分类准确率大致相同。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

属于文本自动分类(Text Categorization,Text Classification)
从二十世纪八十年代末九十年代初开始,国内外学者开始对TC技术进行深入研究,许多机器学习技术和统计分类方法被应用到这一领域,例如基于概率模型(Probabilistic Model)的贝叶斯分类器(Bayesian Classifier),基于规则(Rule)的决策树/决策规则(DecisionTree/Decision Rule Classifier)分类器,基于类描述的线性分类器(Profile-Based LinearClassifier),基于人类分类经验的K最近邻分类器(K-Nearest Neighbor),基于最优超平面的支持向量机(Support Vector Machine,简称SVM),通过对多个分类方法进行组合的分类器委员会(Classifier Committee)等。在线性分类器,向量空间模型(Vector Space Model,简称VSM)被广泛用来描述文本。通过将文本描述为由各特征(例如词,字,字串等)为元素的向量,计算机可以使用向量运算来对本文档来自技高网...

【技术保护点】
一种文本自动分类方法,其特征在于,它是一种基于非二元平滑的二元特征权重计算的文本自动分类方法;它把二元权重计算方法引入到基于向量空间模型(Vector Space Model,VSM)的线性分类器,并结合复杂的非二元权重对二元权重进行平滑,以便一次性地对所有文本进行自动分类;该分类方法在计算机内执行时依次含有以下步骤:在学习阶段:(1)输入学习文本集;(2)确定采用的特征单位以及线性分类器类型;(3)对学习集进行预处理;(4)特征抽取:对学习集进行索引,得 到原始特征集以及各学习文本的频度向量。某文本d的特征频度向量可表示为:d=(tf↓[1],tf↓...

【技术特征摘要】

【专利技术属性】
技术研发人员:薛德军孙茂松
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1