一种提高向量距离分类质量的方法技术

技术编号:16285838 阅读:61 留言:0更新日期:2017-09-24 11:51
本发明专利技术公开了一种提高向量距离分类质量的方法,包括以下步骤:基于VSM的特征加权过程,包括基于词义的特征项词频加权和基于文档结构的特征项词频加权;提取英文搜索的词干;分析用户查询日志;训练语料库修正、扩充。本发明专利技术通过构造分词词典,从而弥补了特征词条相互独立要求与自然语言多样性之间的矛盾构成的VSM的主要缺陷,采用词干处理技术,简化了分类算法的处理的同时提高了分类质量和算法效率,通过对用户的查询日志进行分析,获取用户最感兴趣的查询要求,用它对专业词典进行指导修正,最后,通过对训练语料库进行修正和扩充,保证语料库随着各种专业技术的进步而动态改变,指导Robot程序采集到最近最新的专业技术资料。

A method for improving the quality of vector distance classification

The invention discloses a method for improving the quality of classification of vector distance, which comprises the following steps: feature weighting process based on VSM, including the feature frequency weighted based on semantic feature and based on frequency weighted document structure; stemming English search; analysis of user query log; training corpus correction and expansion. The present invention by constructing a dictionary, which make up the main defect feature sets are independent of each other and formed the contradiction between the natural language of the diversity of VSM, using the stem processing technology, simplifies the classification processing and improve the classification quality and efficiency of the algorithm, based on the analysis of the user's query log, users require access to the most the query of interest for professional guidance, dictionary correction, and finally using it, through the modification and extension of the training corpus, a corpus with a variety of professional to ensure the technical progress of dynamic change, guide Robot program collected latest technical information.

【技术实现步骤摘要】

本专利技术涉及一种提高自动分类质量的技术,特别是一种提高向量距离分类质量的方法
技术介绍
文档自动分类的关键问题是如何构造一个分类函数或分类模型(也称为分类器),并利用此分类模型将未知文档映射到给定的类别空间。分类器的构造算法有多种,主要有概率统计算法、机器学习算法、神经网络算法等。概率统计算法采用相对简单的机制。在处理大规模真实文档方面取得了令人满意的效果。其中简单向量距离算法的思路十分简单,其根据算术平均,通过样本训练为每类文档集生成一个代表该类的中心向量;然后在新文档来到时,确定新文档向量,计算该向量与每类中心向量间的距离(相似度);最后判定文档属于与文档距离最近的类。贝叶斯分类算法的基本思路是计算文档属于类别的概率。文档属于类别的概率等于文档中每个词属于类别的几率的综合表达式。K-最近邻接分类算法的基本思路是在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K篇文档,根据这K篇文档所属的类别判定新文档所属的类别。向量距离分类是假设经过训练后本文档来自技高网...

【技术保护点】
1.一种提高向量距离分类质量的方法,其特征在于:包括以下步骤:A、基于VSM的特征加权A1、基于词义的特征项词频加权本专利技术建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典,用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保持相互独立;在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为表示特征词条进行处理,其中词频统计上的公式为:Tf=TMf+∑TTfi+e∑TIfi    (1)式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频数;∑TTfi为专业同义词词条的词频数;e∑TIfi为专业蕴含词词条的词频数;e为扩展系数,其取值根据分...

【技术特征摘要】
1.一种提高向量距离分类质量的方法,其特征在于:包括以下步骤:
A、基于VSM的特征加权
A1、基于词义的特征项词频加权
本发明建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典,
用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保
持相互独立;
在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为
表示特征词条进行处理,其中词频统计上的公式为:
Tf=TMf+∑TTfi+e∑TIfi(1)
式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频
数;∑TTfi为专业同义词词条的词频数;e∑TIfi为专业蕴含词词条的词频数;e
为扩展系数,其取值根据分类精度确定,取值区间为[0,1];该公式表示词条在
文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得
到;
A2、基于文档结构的特征项词频加权
本发明对于同一个特征词条由于在文章正文、标题,网页源码中〈TITLE〉
和〈/TITLE〉标记的文字、页面关键字,网页源码〈METANAME=“KEYWORD”
CONTENT=“.....”〉中CONTENT中标记的文字、页面描述,网页源码〈META
NAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字等
不同位置出现的重要程度不同我们对其词频时分别进行了加权计算;相应的加
权公式为:
TNf=TNfM+m×TNfT+n...

【专利技术属性】
技术研发人员:李聪慧王秀坤
申请(专利权)人:大连灵动科技发展有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1