System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种自动提取文本关键词的方法技术_技高网
当前位置: 首页 > 专利查询>云南大学专利>正文

一种自动提取文本关键词的方法技术

技术编号:41246254 阅读:6 留言:0更新日期:2024-05-09 23:56
本发明专利技术公开了一种自动提取文本关键词的方法,涉及自然语言处理技术领域,所述自动提取文本关键词的方法包括有以下步骤:步骤一:TextRank算法;步骤二:TF‑IDF算法;步骤三:词向量聚类加权算法;步骤四:中心节点度量算法;步骤五:关键词提取;所述步骤一中TextRank算法将一篇文本进行预处理后,通过建立词图G=(V,E)来构建文本内部各词语单元间的邻接关系,并计算词语节点的重要性,在构建词图中的节点时,首先需要将文本按照句子单元进行分割。本发明专利技术通过采用TF‑IDF算法、词向量聚类加权算法以及图的中心节点度量算法计算词节点权重信息,充实模型在关键词提取时所参考的词共现网络中各节点的初始信息,从而显著提高了关键词提取的准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体涉及一种自动提取文本关键词的方法


技术介绍

1、根据chen和lin的研究,关键词自动提取技术可以大致归纳为四类,分别是统计学方法、语言学方法、机器学习方法以及其他方法。统计学方法通过对文本中的单词或句子等文本单位进行分类统计,从而实现关键词的提取。这种方法无需依赖训练数据,且与文本语言和领域无关。常见的算法包括n-gram统计、词频计算、tf-idf模型、词共现和pat树等。语言学方法则利用词语、句子和文献的语言特征进行关键词提取,其中最为常见的语言特征包括词汇、句法、语义和语篇分析。机器学习方法主要分为有监督关键词提取和无监督关键词提取两类。有监督关键词提取方法通过使用模型对已标注关键词的数据集进行训练,然后应用该模型提取其他文本数据的关键词。针对现有技术存在以下问题:

2、现有的无监督关键词提取方法需要对训练数据集进行手工注释,工作繁琐,且在这个过程中难免存在主观性,可能导致最终实验数据的不准确,同时传统无监督关键词提取方法未考虑到文本的内部词频信息、外部语料信息、结构信息等。


技术实现思路

1、本专利技术提供一种自动提取文本关键词的方法,以解决上述
技术介绍
中提出的问题。

2、为解决上述技术问题,本专利技术所采用的技术方案是:

3、一种自动提取文本关键词的方法,所述自动提取文本关键词的方法包括以下步骤:

4、步骤一:textrank算法;

5、步骤二:tf-idf算法;

6、步骤三:词向量聚类加权算法;

7、步骤四:中心节点度量算法;

8、步骤五:关键词提取;

9、所述步骤一中textrank算法将一篇文本进行预处理后,通过建立词图g=(v,e)来构建文本内部各词语单元间的邻接关系,并计算词语节点的重要性,在构建词图中的节点时,首先需要将文本按照句子单元进行分割,对各句子进行分词并去除停用词和重复词等,仅保留名词、动词和形容词,构成词图的节点集v={v1,v2,…,vn},而在确定两个节点间是否存在边时,使用词共现关系进行构建:两个节点对应的词语在一个窗口中同时出现时,则将两个节点连接起来,构成词图的边集e={(vi,vj)|vi∈v∧vj∈v},其中,窗口大小可设置为2到10个词语。

10、通过构造词图g=(v,e),可以通过公式计算得到各节点的textrank值。

11、本专利技术技术方案的进一步改进在于:所述步骤一的公式中,d∈[0,1]为阻尼系数,表示任一节点均有1-d的概率随机跳转到词图中的其他节点上,为保证textrank的迭代计算可以收敛,一般取值为0.85;ws(vi)表示节点vi的textrank值;ws(vj)表示上次迭代后节点vj的textrank值;in(vi)表示指向节点vi的所有节点的集合;out(vj)表示节点vj指向的所有节点的集合;wji表示两个节点vi和vj间的相似度。

12、本专利技术技术方案的进一步改进在于:所述步骤二中是利用词频(tf)和逆文档词频(idf)相乘得到词语的权重值,根据权重排序选取前几位为关键词,计算公式如下所示:wtf-idf(i)=tfi*idfi;idfi=logn/dfi;其中,tfi表示词语i在文本中出现的次数除以文本中的总词语数,即词语i在文本中出现的频率;n表示语料库中的文本总数;dfi表示含有词语i的文本数目;idfi表示词语i的类别辨别能力。

13、本专利技术技术方案的进一步改进在于:所述步骤三可以通过对文本中的词向量进行聚类,然后选取其他词向量与聚类中心的距离来考察关键词,词向量聚类加权算法假设:一篇文本中的词语可以通过计算它们的向量相似度被分为若干组,这些组被称为簇,一个词语距离其所在簇的质心越远,则越能反映该词语与该簇的质心以及质心周边词语的差异,在作为textrank词图节点时,其重要性也越高。

14、本专利技术技术方案的进一步改进在于:所述步骤三中预处理给定文本生成候选关键词v={v1,v2,…,vn},其次,使用训练后得到的word2vec词向量模型,获得其s的词向量令c={c1,c2,…,cn}表示由文档的词向量集合进行k均值聚类后的聚类结果,计算任意词语i在所属簇ci中的重要性,计算公式如下所示:其中,表示簇ci的质心所对应的向量;表示词向量空间中向量到向量的欧氏距离,|ci|表示簇ci所包含的词语数量。

15、本专利技术技术方案的进一步改进在于:所述步骤四可分为以下步骤:

16、a1:度中心性:度中心性是在网络分析中刻画节点中心性的最直接的度量指标,一个节点的度越大就意味着该节点的度中心性越高,该节点在网络中就越重要,某个节点的度中心性计算公式如下:

17、a2:特征向量中心性:特征向量中心性的基本思想是,一个节点的重要性既取决于其邻居节点的数量,也取决于其邻居节点的重要性。某个节点的特征向量中心性计算公式如下:其中λ为特征值,j为节点i的邻居节点;

18、a3:介数中心性:介数中心性的基本思想是,通过统计经过某个节点的最短路径的数目来刻画节点重要性。某个节点的介数中心性计算公式如下:其中σut表示节点u到t的最短路径的数目,σut(i)表示这些路径经过节点i的路径的数目,n表示图中节点数量;

19、结合所述a1、a2、a3,通过以下公式综合评估该节点在词图中的中心性:wcentrality(i)=wd9i)+wev(i)+wb(i)。

20、本专利技术技术方案的进一步改进在于:所述步骤五中对于文本中的任意一个词语i,提出以下公式计算其综合权重:wweight(i)=wtf-idf(i)+wword2vec-cluster(i)+wcentrality(i),同时,使用以下公式对节点权重值进行归一化处理:其中,wweight(i)是节点i的权重,min_weight是所有节点中的最小权重值,max_weight是所有节点中的最大权重值;根据textrank算法,词图节点之间的概率转移公式为:进而构造词图中节点之间的概率转移矩阵m:其中,pij表示由节点i跳转到节点j的转移概率,即p(vi,vj);通过构造概率转移矩阵m,最终textrank节点权重迭代公式如下:

21、本专利技术技术方案的进一步改进在于:所述步骤五中通过不断迭代公式,当图中的误差率小于给定极限值,即可达到收敛,一般情况下,极限值为0.0001,此时停止迭代,每个节点得分即为其在图中的重要性程度,按照得分大小降序排序,前n个词语即为关键词提取的最终结果。

22、由于采用了上述技术方案,本专利技术相对现有技术来说,取得的技术进步是:

23、1、本专利技术提供一种自动提取文本关键词的方法,通过采用tf-idf算法、词向量聚类加权算法以及图的中心节点度量算法计算词节点权重信息,充实模型在关键词提取时所参考的词共现网络中各节点的初始信息,从而显著提高了关键词提取的准确性。

24、2、本发本文档来自技高网...

【技术保护点】

1.一种自动提取文本关键词的方法,其特征在于:所述自动提取文本关键词的方法包括以下步骤:

2.根据权利要求1所述的一种自动提取文本关键词的方法,其特征在于:所述步骤一的公式中,d∈[0,1]为阻尼系数,表示任一节点均有1-d的概率随机跳转到词图中的其他节点上,为保证TextRank的迭代计算可以收敛,一般取值为0.85;WS(Vi)表示节点Vi的TextRank值;WS(Vj)表示上次迭代后节点Vj的TextRank值;In(Vi)表示指向节点Vi的所有节点的集合;Out(Vj)表示节点Vj指向的所有节点的集合;Wji表示两个节点Vi和Vj间的相似度。

3.根据权利要求1所述的一种自动提取文本关键词的方法,其特征在于:所述步骤二中是利用词频(TF)和逆文档词频(IDF)相乘得到词语的权重值,根据权重排序选取前几位为关键词,计算公式如下所示:WTF-IDF(i)=TFi*IDFi;IDFi=logN/DFi;其中,TFi表示词语i在文本中出现的次数除以文本中的总词语数,即词语i在文本中出现的频率;N表示语料库中的文本总数;DFi表示含有词语i的文本数目;IDFi表示词语i的类别辨别能力。

4.根据权利要求1所述的一种自动提取文本关键词的方法,其特征在于:所述步骤三可以通过对文本中的词向量进行聚类,然后选取其他词向量与聚类中心的距离来考察关键词,词向量聚类加权算法假设:一篇文本中的词语可以通过计算它们的向量相似度被分为若干组,这些组被称为簇,一个词语距离其所在簇的质心越远,则越能反映该词语与该簇的质心以及质心周边词语的差异,在作为TextRank词图节点时,其重要性也越高。

5.根据权利要求4所述的一种自动提取文本关键词的方法,其特征在于:所述步骤三中预处理给定文本生成候选关键词V={V1,V2,…,Vn},其次,使用训练后得到的Word2Vec词向量模型,获得其s的词向量令C={C1,C2,…,Cn}表示由文档的词向量集合进行K均值聚类后的聚类结果,计算任意词语i在所属簇Ci中的重要性,计算公式如下所示:其中,表示簇Ci的质心所对应的向量;表示词向量空间中向量到向量的欧氏距离,|Ci|表示簇Ci所包含的词语数量。

6.根据权利要求1所述的一种自动提取文本关键词的方法,其特征在于:所述步骤四可分为以下步骤:

7.根据权利要求1所述的一种自动提取文本关键词的方法,其特征在于:所述步骤五中对于文本中的任意一个词语i,提出以下公式计算其综合权重:WWeight(i)=WTF-IDF(i)+WWord2Vec-Cluster(i)+WCentrality(i),同时,使用以下公式对节点权重值进行归一化处理:其中,WWeight(i)是节点i的权重,min_weight是所有节点中的最小权重值,max_weight是所有节点中的最大权重值;根据TextRank算法,词图节点之间的概率转移公式为:进而构造词图中节点之间的概率转移矩阵M:其中,pij表示由节点i跳转到节点j的转移概率,即P(Vi,Vj);通过构造概率转移矩阵M,最终TextRank节点权重迭代公式如下:

8.根据权利要求7所述的一种自动提取文本关键词的方法,其特征在于:所述步骤五中通过不断迭代公式,当图中的误差率小于给定极限值,即可达到收敛,一般情况下,极限值为0.0001,此时停止迭代,每个节点得分即为其在图中的重要性程度,按照得分大小降序排序,前N个词语即为关键词提取的最终结果。

...

【技术特征摘要】

1.一种自动提取文本关键词的方法,其特征在于:所述自动提取文本关键词的方法包括以下步骤:

2.根据权利要求1所述的一种自动提取文本关键词的方法,其特征在于:所述步骤一的公式中,d∈[0,1]为阻尼系数,表示任一节点均有1-d的概率随机跳转到词图中的其他节点上,为保证textrank的迭代计算可以收敛,一般取值为0.85;ws(vi)表示节点vi的textrank值;ws(vj)表示上次迭代后节点vj的textrank值;in(vi)表示指向节点vi的所有节点的集合;out(vj)表示节点vj指向的所有节点的集合;wji表示两个节点vi和vj间的相似度。

3.根据权利要求1所述的一种自动提取文本关键词的方法,其特征在于:所述步骤二中是利用词频(tf)和逆文档词频(idf)相乘得到词语的权重值,根据权重排序选取前几位为关键词,计算公式如下所示:wtf-idf(i)=tfi*idfi;idfi=logn/dfi;其中,tfi表示词语i在文本中出现的次数除以文本中的总词语数,即词语i在文本中出现的频率;n表示语料库中的文本总数;dfi表示含有词语i的文本数目;idfi表示词语i的类别辨别能力。

4.根据权利要求1所述的一种自动提取文本关键词的方法,其特征在于:所述步骤三可以通过对文本中的词向量进行聚类,然后选取其他词向量与聚类中心的距离来考察关键词,词向量聚类加权算法假设:一篇文本中的词语可以通过计算它们的向量相似度被分为若干组,这些组被称为簇,一个词语距离其所在簇的质心越远,则越能反映该词语与该簇的质心以及质心周边词语的差异,在作为textrank词图节点时,其重要性也越高。

5.根据权利要求4所述的一种自动提取文本关...

【专利技术属性】
技术研发人员:李平周赵娜王浩李小鹏王剑
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1