【技术实现步骤摘要】
本专利技术属于信息资源管理中的文本分类
,具体来讲,涉及一种基于特征项选择及权重计算的文本分类方法。
技术介绍
在爆炸式增长的互联网信息资源中,文本信息是应用最为广泛的一种形式,这是因为文本是信息的载体,而多数其他的形式的信息(图像、声音)均可以用文本进行标注。为了迅速有效的发现信息和资源,文本分类技术作为有效地组织和管理文本信息的重要手段应运而生。文本分类是在给定分类类别的情况下,根据文本的内容或属性将其分到一个或多个预定义类别。目前,文本分类领域中主要采用的文本表示方式是VSM(向量空间模型),即在对语料集的文本进行分词、去除停用词后,经过特征项选择和权重计算,最终将语料集文本表示成N维的向量空间。在实际应用中,特征项的维数常常高达万维,而如此高维的特征项对于文本分类未必是有益和必要的。因此,为了提高文本分类的效率和精度,如何降低特征项的维数以及特征项的权重如何计算成为文本分类中首要解决的问题。现有技术的文本分类方法在进行特征项的选择和权重计算时采用TF-IDF(TermFrequency - Inverse Document Frequency,词频-逆文本)函数。由于该函数综合考虑了特征项在文本中出现的次数和在整个训练文本集的分布情况,加之其计算简单并有较高的准确率,在文本分类
得到了应用广泛。但在实际应用中,传统的TF-IDF函数仍存在明显的不足DTF-IDF认为在特征项词频数相同情况下,若语料集中包含某个特征项的文本数越大,则IDF值越小,即权重也越小。但事实上,若特征项不是均匀的出现在语料集各个类的文本中而是集中地出现在某一类别 ...
【技术保护点】
一种基于特征项选择及权重计算的文本分类方法,包括以下步骤:(1)、收集不同类别文本,分析整理后按类别归入语料训练集;(2)、对语料训练集的文本进行预处理,包括分词、去除停用词、统计特征项词频数等;(3)、利用改进TF?IDF函数计算各文本特征项权重,改进TF?IDF函数公式为:w(tk,Tj)=tf(tk,Tj)×idf(tk)×χ2(tk,Ci)×H(tk,Ci)其中:w(tk,Tj)表示文本Tj中特征项tk的权重值;tf(tk,Tj)表示特征项tk在文本Tj中的词频数;表示特征项tk的逆文本频率,其中N表示语料训练集中文本总数,Nk表示训练集中包含特征项tk的文本数;χ2(tk,Ci)=N(AD-BC)2(A+C)(B+D)(A+B)(C+D),表示特征项tk与类别Ci之间的相关度,其中A为包含特征项tk且属于类别Ci的文本数,B为包含特征项tk但不属于类别Ci的文本数,C为不包含特征项tk但属于类别Ci的文本数,D为不包含特征项tk也不属于类别Ci的文本数,N表示语料训练集中文本总数;表示特征项tk在类别Ci内的分布信息熵,其中表示类别Ci内特征项tk在文本Tj中的分布概 ...
【技术特征摘要】
1.一种基于特征项选择及权重计算的文本分类方法,包括以下步骤 (1)、收集不同类别文本,分析整理后按类别归入语料训练集; (2)、对语料训练集的文本进行预处理,包括分词、去除停用词、统计特征项词频数等; (3)、利用改进TF-IDF函数计算各文本特征项权重,改进TF-IDF函数公式为 w (tk, Tj) =tf (tk, Tj) X idf (tk) X X 2 (tk, Ci) X H (tk, Ci) 其中 w(tk, Tj)表示文本L中特征项tk的权重值; tf (tk, Tj)表示特征项tk在文本Tj中的词频数MfW) = loy(— + 00i),表示特征项tk的逆文本频率,其中N表示语料训练集中文本总数,Nk表示训练集中包含特征项tk的文本数; A.,(::) =,表示特征项^与类别咖的相关度,其巾A为包含特征项tk且属于类别Ci的文本数,B为包含特征项tk但不属于类别Ci的文本数,C为不包含特征项tk但属于类别Ci的文本数,D为不包含特征项tk也不属于类别Ci的文本η数,N表示语料训练集中文本总数;例~工',)=乙/仏/,(: )//:>(广(/0(',.)),表示特征项4在 J=I类别C1内的分布信息熵,其中/%·,()) =表示类别C1内特征项tk在文本Tj中的分 η布概率,tf (tk,Tj)表示特征项tk在文本Tj中的词频数,认,= Σ扒々,G)表示类别Ci内J=I特征项tk的总词频,η表示类别Ci的文本总数; (4)、计算特征项类间差,评估特征项,特征项评估函数公式为 Q (tk) =Max (w (tk, Ci)) -IessMax (...
【专利技术属性】
技术研发人员:孙健,梁雪芬,艾丽丽,隆克平,徐杰,王晓丽,张毅,姚洪哲,李乾坤,陈小英,陈旭,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。