【技术实现步骤摘要】
属于文本自动分类(Text Categorization,Text Classification)
从二十世纪八十年代末九十年代初开始,国内外学者开始对TC技术进行深入研究,许多机器学习技术和统计分类方法被应用到这一领域,例如基于概率模型(Probabilistic Model)的贝叶斯分类器(Bayesian Classifier),基于规则(Rule)的决策树/决策规则(DecisionTree/Decision Rule Classifier)分类器,基于类描述的线性分类器(Profile-Based LinearClassifier),基于人类分类经验的K最近邻分类器(K-Nearest Neighbor),基于最优超平面的支持向量机(Support Vector Machine,简称SVM),通过对多个分类方法进行组合的分类器委员会(Classifier Committee)等。在线性分类器,向量空间模型(Vector Space Model,简称VSM)被广泛用来描述文本。通过将文本描述为由各特征(例如词,字,字串等)为元素的向量,计算机 ...
【技术保护点】
一种文本自动分类方法,其特征在于,它是一种基于非二元平滑的二元特征权重计算的文本自动分类方法;它把二元权重计算方法引入到基于向量空间模型(Vector Space Model,VSM)的线性分类器,并结合复杂的非二元权重对二元权重进行平滑,以便一次性地对所有文本进行自动分类;该分类方法在计算机内执行时依次含有以下步骤:在学习阶段:(1)输入学习文本集;(2)确定采用的特征单位以及线性分类器类型;(3)对学习集进行预处理;(4)特征抽取:对学习集进行索引,得 到原始特征集以及各学习文本的频度向量。某文本d的特征频度向量可表示为:d=( ...
【技术特征摘要】
【专利技术属性】
技术研发人员:薛德军,孙茂松,
申请(专利权)人:清华大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。