一种文本挖掘的特征词权重计算方法技术

技术编号:14535020 阅读:132 留言:0更新日期:2017-02-02 20:14
本发明专利技术提供了一种文本挖掘的特征权重计算方法,将文本特征词的向量表征为分布式表达的实数值向量;根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度。采用本发明专利技术的技术方案,可以显著提高文本特征词权重的计算准确率,并能应用于文本的特征词抓取,文本分类和文本聚类中。

A method for calculating the weight of feature words in text mining

The present invention provides a feature weight calculation method of text mining, text feature vector representation for real distributed expression vector; according to the distributed representation features of word expression vector and obtain the numerical calculation, feature words associated with larger feature sets; the TextRank algorithm is used to calculate weights of feature words, 22 the correlation between feature words added to the calculated values of the weights of the features; through the TextRank algorithm and the feature words associated with larger other feature weight, namely the set of feature words, and the same in terms of accession correlation between 22 feature words. By adopting the technical proposal of the invention, the calculation accuracy of the weight of the text feature word can be remarkably improved, and the method can be applied to the text word grabbing, text classification and text clustering.

【技术实现步骤摘要】

本专利技术是对现有的一种文本挖掘的特征权重计算方法的改进,可应用于文本的特征词抓取,文本分类和文本聚类中。
技术介绍
在当今的信息互联网时代,海量的文本信息在时刻涌现,而基于机器学习的文本挖掘技术变得尤为重要。在自然语言处理中,将文本表示成向量空间模型(VSM:VectorSpaceModel)是文本挖掘的基础。而在建立向量空间模型的过程中,特征权重的表示尤为重要,权重表示的优劣将直接影响到文本分类的精确度。在文本特征权重计算研究中,学者们已提出多种有效的方法,其中TextRank算法由于相对简单,且有较高的准确率和召回率,是使用最广泛的权重表示方法之一。TextRank算法基于PageRank,用于为文本生成关键字和摘要。其论文是:MihalceaR,TarauP.TextRank:Bringingorderintotexts[C].AssociationforComputationalLinguistics,2004.PageRank最开始用来计算网页的重要性。整个www可以看作一张有向图图,节点是网页。如果网页A存在到网页B的链接,那么有一条从网页A指向网页B的有向边。构造完图后,使用下面的公式:S(Vi)是网页i的中重要性(PR值)。d是阻尼系数,一般设置为0.85。In(Vi)是存在指向网页i的链接的网页集合。Out(Vj)是网页j中的链接存在的链接指向的网页的集合。|Out(Vj)|是集合中元素的个数。PageRank需要使用上面的公式多次迭代才能得到结果。初始时,可以设置每个网页的重要性为1。上面公式等号左边计算的结果是迭代后网页i的PR值,等号右边用到的PR值全是迭代前的。使用TextRank提取关键字,是将原文本拆分为句子,在每个句子中过滤掉停用词(可选),并只保留指定词性的单词(可选)。由此可以得到句子的集合和单词的集合。每个单词作为pagerank中的一个节点。设定窗口大小为k,假设一个句子依次由下面的单词组成:Sentence={w1,w2,w3,w4,w5,...,wn本文档来自技高网...

【技术保护点】
一种文本挖掘的特征权重计算方法,包括:步骤1、将文本特征词的向量表征为分布式表达的实数值向量;步骤2、根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;步骤3、通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;步骤4、通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度。

【技术特征摘要】
1.一种文本挖掘的特征权重计算方法,包括:步骤1、将文本特征词的向量表征为分布式表达的实数值向量;步骤2、根据表征特征词的分布式表达实数值向量,计算获取与该特征词关联度较大的特征词集;步骤3、通过TextRank算法计算特征词的权重时,将两两特征词间的关联度加入到特征值权重的计算中;步骤4、通过TextRank算法计算与该特征词关联度较大的其他特征词权重,即特征词集,并同样在计算中加入两两特征词间的关联度。2.根据权利要求1所述的文本挖掘的特征权重计算方法,其特征在于,所述的特征词是文本中最能代表其所在文本主题的分词,在特征词权重计算中,特征词对其所在文本主题关联越大,其权重越高。3.根据权利要求1所述的文本挖掘的特征权重计算方法,其特征在于,步骤3为基于Word2Vec改进的TextRank算法用于文本的特征值计算方法,其中将两两特征词间的关联度加入到TextRank特征值权重计算公式如下:S(Vi)=(1-d)+d*Σj∈ln(Vi)1|Ou...

【专利技术属性】
技术研发人员:崔宪坤李建强赵申荷
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1