一种基于门控主题模型的无监督关键词抽取方法技术

技术编号：40093980 阅读：6 留言：0更新日期：2024-01-23 16:38

本发明专利技术涉及一种基于门控主题模型的无监督关键词抽取方法，属于人工智能、大数据、自然语言处理领域。本发明专利技术提出了一种语义自适应的文档语义表示方法，在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题，并采用门控机制对文档主题进行独立加权，使具有较高语义丰富度的文档被分配相对更多的主题；利用文档主题信息设计了一种新的关键词评分算法，同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷，避免了对文本核心主题的过度关注，从而提高了所抽取关键词的多样性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能、大数据、自然语言处理领域，具体涉及一种基于门控主题模型的无监督关键词抽取方法。

技术介绍

1、面对高速产生、广泛传播的电子文本数据，如何从海量的文本数据中准确、高效地提取关键信息，已经成为当下的迫切需求。关键词抽取技术不仅可以帮助人们迅速了解文本内容的核心要点，还能为信息检索、文本摘要、主题建模等下游应用提供支持，具有重要的研究意义。

2、关键词抽取技术可分为有监督方法和无监督方法两种，由于标注关键词在真实场景中通常难以获得，无监督关键词抽取在应用中往往更具实用价值。现存的无监督关键词抽取技术通常可归为三种范式：基于统计特征的关键词抽取通过定义并选择一些统计特征，如词频、词位置等，来计算关键词得分。尽管实现较为简单，但此类方法本质上将单词视为符号，试图通过统计特征来找到关键词的联系，而未从语义层面对关键词进行建模。因此，在捕捉文本语义和主题方面存在一定的限制。基于图的关键词抽取方法将原始文档转化为图结构，其中单词之间的关系构成了图的边。通过求解图的优化问题，从复杂网络中筛选关键词。该方法可以捕获词语的局部上下文信息，但同样未对文本和单词的语义进行建模，无法有效地捕捉全局语义信息。基于嵌入的关键词抽取是当前无监督关键词抽取领域中最先进的方法。该方法使用预训练语言模型对文档和候选词进行编码，然后根据文档嵌入与候选词嵌入的语义相似度得分对候选词进行排序。这种基于语义的方法明显提升了关键词抽取的准确性，但也存在一些问题。首先，该方法很难捕捉文档之间的语义丰富度差异，因为它将文档语义表示为固定的嵌入。其

技术实现思路

1、(一)要解决的技术问题

2、本专利技术要解决的技术问题是如何提供一种基于门控主题模型的无监督关键词抽取方法，以解决两方面问题：首先，文档之间的语义丰富度存在广泛差异，需要自适应的文档语义建模方法，其次，单文档的关键词通常分布在多个主题下，仅关注核心主题会导致关键词冗余和信息丢失，需要提高关键词抽取的多样性。

3、(二)技术方案

4、为了解决上述技术问题，本专利技术提出一种基于门控主题模型的无监督关键词抽取方法，该方法包括如下步骤：

5、步骤一：分词及词性标注

6、在对输入文本编码之前，需要先对原始的自然语言文本数据进行必要的预处理；

7、步骤二：名词短语抽取

8、基于pos标注结果，只保留了原文本中的名词性短语作为候选关键词；

9、步骤三：文档编码及候选词表示

10、基于glove嵌入对文档单词和候选关键词进行编码以获取词嵌入表示；

11、步骤四：主题建模

12、s41、首先，对于语料库中任意一篇文档d，利用步骤三中得到的词嵌入构造d的上下文向量表示zd；

13、s42、从主题建模的角度出发，文档表示为主题嵌入的加权求和，进而将文档上下文表示zd重构为另一种表示主题表示形式

14、s43、在得到了文档上下文向量表示zd及其主题表示rd之后，采用对比学习策略对模型参数进行优化，对比学习的目标为最小化损失函数

15、s44、以最小化为目标对主题模型进行训练，在整个语料库上抽取一组主题表示mt＝{m1,m2,…,mk}，并确定每篇输入文档关于这k个主题的权重向量pd＝{w1,w2,…,wk}；

16、步骤五：关键词抽取

17、对于每个候选词npi，计算得到其关于k个主题的得分，npi的最终得分为这k个得分的最大值，根据最终得分对所有候选词进行排序，并抽取排名靠前的n个候选词作为文档d的关键词。

18、(三)有益效果

19、本专利技术提出一种基于门控主题模型的无监督关键词抽取方法，本专利技术公开一种基于门控主题模型的无监督关键词抽取方法，主要优势体现在以下方面：

20、(1)提出了一种语义自适应的文档语义表示方法，在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题，并采用门控机制对文档主题进行独立加权，使具有较高语义丰富度的文档被分配相对更多的主题。

21、(2)利用文档主题信息设计了一种新的关键词评分算法，同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷，避免了对文本核心主题的过度关注，从而提高了所抽取关键词的多样性。

本文档来自技高网...

【技术保护点】

1.一种基于门控主题模型的无监督关键词抽取方法，其特征在于，该方法包括如下步骤：

2.如权利要求1所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述步骤一具体包括：给定数据集中任意一篇文档d，首先对其进行文本分词操作，得到一个长度为n的单词序列{t1,t2,...,tn}；然后，对分词后的单词序列进行词性(Part-Of-Speech，POS)标注，给每个单词赋予一个恰当的POS标签。

3.如权利要求2所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述步骤二具体包括：抽取了符合正则表达式{<NN.*|JJ>*<NN.*>}模式的所有短语作为候选关键词，其中NN代表名词词性标签，JJ代表形容词词性标签，整体含义为包含零个或多个形容词和至少一个名词的组合；所得候选关键词集合定义为C＝{np1,np2,...,npm}。

4.如权利要求3所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述步骤三中，对于文档单词，具体编码过程表示为公式：

5.如权利要求4所述的基于门控主题模型的无监

6.如权利要求5所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述S41具体包括：

7.如权利要求6所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述S42包括：

8.如权利要求7所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述S43具体包括：对于文档库D中的每篇输入文档d，rd和zd本质上是在不同角度对d的刻画，两种表示应尽量地相似，而对于语料库中与d无关的其他文档，记其上下文表示为c，则c应与rd尽量相异；因此，公式(7)所示的损失函数期望缩小rd和zd之间的距离，同时最大化rd和文档之间的距离，其中ci，是从一批输入中随机采样的无关文档，定义为d的负样本；

9.如权利要求8所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述对于每个候选词npi，计算得到其关于K个主题的得分具体包括：

10.如权利要求9所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述npi的最终得分为这K个得分的最大值具体包括：

...

【技术特征摘要】

1.一种基于门控主题模型的无监督关键词抽取方法，其特征在于，该方法包括如下步骤：

2.如权利要求1所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述步骤一具体包括：给定数据集中任意一篇文档d，首先对其进行文本分词操作，得到一个长度为n的单词序列{t1,t2,...,tn}；然后，对分词后的单词序列进行词性(part-of-speech，pos)标注，给每个单词赋予一个恰当的pos标签。

3.如权利要求2所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述步骤二具体包括：抽取了符合正则表达式{<nn.*|jj>*<nn.*>}模式的所有短语作为候选关键词，其中nn代表名词词性标签，jj代表形容词词性标签，整体含义为包含零个或多个形容词和至少一个名词的组合；所得候选关键词集合定义为c＝{np1,np2,...,npm}。

4.如权利要求3所述的基于门控主题模型的无监督关键词抽取方法，其特征在于，所述步骤三中，对于文档单词，具体编码过程表示为公式：

5.如权利要求4所述的基于门控主题模型的无监督关键词抽取方法，其特征...

【专利技术属性】
技术研发人员：刘琦，杨雨婷，余增文，贺垚，范昕煜，田宗凯，赵勤博，
申请(专利权)人：北京计算机技术及应用研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人