一种文档的无监督关键词抽取方法技术

技术编号:38910301 阅读:13 留言:0更新日期:2023-09-25 09:27
本发明专利技术提供了一种文档的无监督关键词抽取方法。该方法包括:构建输入文档的候选词语集合;通过文档词语编码器和自注意力机制构建子集抽取智能体,并利用文档到集合的打分函数作为奖励函数训练该智能体,所述子集抽取智能体实现从候选词语集合中抽取关键词子集;将所述输入文档的候选词语集合输入到训练好的子集抽取智能体,所述训练好的子集抽取智能体输出上述输入文档的最优关键词子集。本发明专利技术通过正交优化正则的排序损失函数构建了文档到集合的打分函数作为强化学习中的奖励函数,允许模型从集合的角度对候选关键词集合进行打分,达到对关键词重要性准确估计的目的,极大提升了无监督关键词抽取的性能。了无监督关键词抽取的性能。了无监督关键词抽取的性能。

【技术实现步骤摘要】
一种文档的无监督关键词抽取方法


[0001]本专利技术涉及文本数据处理
,尤其涉及一种文档的无监督关键词抽取方法。

技术介绍

[0002]关键词是由单个词或词组构成的一个具有重要意义的词语表达,通常用于反应文档的主题思想和核心内容。关键词能帮助读者快速地掌握一篇文本文档的主题,高效、准确、快速地提取关键词,有助于满足人们对所需信息的要求。因此,关键词抽取是文本数据挖掘领域一个重要分支,广泛应用于文档索引、摘要生成、文本分类和信息检索等领域。
[0003]基于无监督的关键词抽取方法最早应用于关键词抽取任务。历经多年的发展,该类方法在关键词抽取任务中仍然占据重要的地位。现有技术中的一种无监督关键词抽取方法的处理流程示意图如图1所示,包括如下的处理过程:
[0004]文本预处理:预处理目的是将输入的原始文本切分为较小的语义单元,并删去与文档主题不相关的词汇,其中主要包括的操作为分词、去停用词等。
[0005]构建候选集合:构建候选的目的是从原始文本中筛选出可能成为关键词的单词或者短语,常见的筛选方法主要有三类:第一类是基于N

gram选择出现频率较高的单词或短语;第二类是基于外部资源,如通过维基百科来选择有价值的单词或词语;第三类是基于一些启发式指标,如词频

逆文档频率(Term Frequency

Inverse Document Frequency,TF

IDF)、词性、单词所处文档中的位置对候选词进行筛选。需要指出的是,在一些早期的工作中当前步骤经常被省略,即将所有短语都视作候选词集合中的元素保持较高的召回值。
[0006]候选词打分排序:在获得候选词语集合后,就需要从中选择与文档主题或核心内容更为契合的短语作为关键词。一般是通过设定一系列的指标对候选短语的重要程度进行量化并排序,然后将候选短语的排名先后作为依据来筛选关键词。
[0007]下面介绍现有技术中四种代表性的无监督关键词抽取方法。
[0008]基于频率统计的方法
[0009]基于统计的方法是对候选词的一些特定指标进行统计,然后根据统计的结果将候选词进行排序。在该方法中的指标可以分为两类,第一类方法包括以N

gram、TF

IDF、词共现、词频等为代表的用以评价单词在文档中重要程度的指标,但是这类指标忽略了单词自身的属性。因此,有学者提出使用单词的词性、在文档中出现的位置等指标为单词设置不同的权重。
[0010]基于图的方法
[0011]基于图的无监督关键词抽取方法中最为典型的代表是TextRank,通过词性标签筛选出文本中的形容词与名词,然后为在同个文本窗口中出现的候选词之间建立边,最后赋予每个节点相同的初始值并运行PageRank算法直至收敛。该方法的缺点在于只要两个候选词在同一个文本窗口中出现,就认为它们之间存在关联,但是该关联的强弱却没有得到很好的区分,即共现一次与共现多次的关联强度被认为是相等的。基于图的方法关键思想是
认为候选词之间的关联应当有强弱的区分,并尝试用各种统计指标来度量节点间的关联强弱,进而得到更好的关键词。
[0012]基于主题的方法
[0013]基于主题的方法是将候选词按照不同的主题进行划分,然后选择各个主题中的中心词作为文档的关键词。有学者通过单词之间的共现频次与维基百科来计算候选词之间的相似度并将候选词进行聚类,之后按照文档所包含主题分配相应主题的核心词。该方法的缺陷在于文档所涵盖的不同主题的重要性被认为是相等的,因此会抽取出大量与文档主题关联较弱的单词。
[0014]基于文本嵌入的方法
[0015]基于文本嵌入的方法在计算边权重时考虑候选词之间的语义关联。有学者使用文献在维基百科上训练得到的词向量,通过词向量间的欧氏距离描述候选词之间的语义相关性,并在计算边权重时加以考虑。
[0016]上述现有技术中的无监督关键词抽取方法的缺点包括:图2为本专利技术实施例提供的一种无监督关键词抽取方法的工作模式示意图,图2中代表输入的文档,代表候选关键词集合,其中p
k
代表集合中第k个关键词。另外,s(
·
)代表关键词重要性的打分函数。现有技术的无监督关键词抽取方法都是根据图2中(a)和(b)模式对候选集合中的词语打分,然后根据打分进行排序抽取得到最后的关键词集合。通过这种Point

wise和Pair

wise的视角对关键词进行单一打分会造成两种问题:
[0017]过度生成:过度生成的含义是如果一个文档是关于描述“信息抽取”的,那么“抽取”这个词将会在文档中多次重复出现,即高频词。因此,在逐一对候选词打分时,如果候选词中包含了“抽取”,大概率会获得一个较高的分数,即使是一个错误的关键词。
[0018]忽略耦合性:一个文档通常对一个关键词集合,该集合中的关键词应该尽可能的覆盖文档中的核心信息和主题,如果单一考虑每个关键词的重要性,会忽略词语之间的耦合性。
[0019]上述现有技术中的基于无监督关键词抽取的方法无法考虑所有候选短语之间的相互作用,并且无法考虑到关键词集合的整体语义。这使得它们大多倾向于选择具有高频词的短语,进而降低最终抽取的结果多样性,导致性能不够理想。

技术实现思路

[0020]本专利技术的实施例提供了一种文档的无监督关键词抽取方法,以实现有效地抽取文档的关键词。
[0021]为了实现上述目的,本专利技术采取了如下技术方案。
[0022]一种文档的无监督关键词抽取方法,包括:
[0023]获取输入文档的候选词语集合;
[0024]基于编码器和正交优化正则构建文档

集合打分函数,基于正交优化正则的排序损失训练文档

集合打分函数;基于训练好的文档

集合打分函数和自注意力机制构建子集抽取智能体,将训练好的文档

集合打分函数作为奖励函数通过强化学习中的策略梯度方法优化训练子集抽取智能体;
[0025]将所述输入文档的候选词语集合输入到训练好的子集抽取智能体,所述训练好的
子集抽取智能体输出所述输入文档的最优关键词子集。
[0026]优选地,所述的获取输入文档的候选词语集合,包括:
[0027]通过自然语言处理工具对输入文档进行分词,并标注词语的词性,再根据特定的匹配表达式{<NN.*|JJ>*<NN.*>}获得所述输入文档的候选词语集合JJ代表形容词,NN代表名词。
[0028]优选地,所述的基于编码器和正交优化正则构建文档

集合打分函数,基于正交优化正则的排序损失训练文档

集合打分函数,包括:
[0029]基于编码器和正交优化正则构建文档

集合打分函数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档的无监督关键词抽取方法,其特征在于,包括:获取输入文档的候选词语集合;基于编码器和正交优化正则构建文档

集合打分函数,基于正交优化正则的排序损失训练文档

集合打分函数;基于训练好的文档

集合打分函数和自注意力机制构建子集抽取智能体,将训练好的文档

集合打分函数作为奖励函数通过强化学习中的策略梯度方法优化训练子集抽取智能体;将所述输入文档的候选词语集合输入到训练好的子集抽取智能体,所述训练好的子集抽取智能体输出所述输入文档的最优关键词子集。2.根据权利要求1所述的方法,其特征在于,所述的获取输入文档的候选词语集合,包括:通过自然语言处理工具对输入文档进行分词,并标注词语的词性,再根据特定的匹配表达式{<NN.*|JJ>*<NN.*>}获得所述输入文档的候选词语集合JJ代表形容词,NN代表名词。3.根据权利要求2所述的方法,其特征在于,所述的基于编码器和正交优化正则构建文档

集合打分函数,基于正交优化正则的排序损失训练文档

集合打分函数,包括:基于编码器和正交优化正则构建文档

集合打分函数S(
·
),所述文档

集合打分函数S(
·
)包括基于孪生网络的文档词语编码器BERT和基于对比学习的表示正交优化损失,所述文档

集合打分函数S(
·
)的具体处理过程包括:对于输入文档和其对应候选词语集合使用编码器BERT获得相应的语义表示:B表示批次的大小,和代表了同一个批次下第b个候选词语集合和输入文档的语义表示;引入自编码器对所述候选词语集合和输入文档的语义表示进行压缩,具体操作如下:引入自编码器对所述候选词语集合和输入文档的语义表示进行压缩,具体操作如下:其中,和代表可学习的参数矩阵,d1和d2表示可学习参数矩阵的维度大小,和代表了同一个批次下第b个候选词语集合和输入文档在隐空间的最终语义表示,和代表了同一个批次下第b个候选词语集合和输入文档在隐空间的重构语义表示;使用余弦相似度计算和之间的语义相似度,如下公式所示:
其中,S(
·
)为文档

集合打分函数,代表同一个批次下第b个候选词语集合和文档的语义相似度,将该语义相似度作为该候选词语集合的重要性分数;引入基于对比学习的表示正交优化损失对候选词语集合的重要性分数进行优化,对于同一个批次下的输入文档将没有截断的输入文档所对应的候选词语集合视为正样本集而被截断的输入文档其对应的候选词语集合被选作为负样本集设计基于正交优化正则的排序损失函数如下公式所示:其中,margin代表可调节的超参数,该超参数作为控制排序学习的权重;利用所述基于正交优化正则的排序损失训练文档

集合打分函数S,利用所述排序失函数从多个角度对语义相似度进行优化,具体计算公式如下:数从多个角度对语义相似度进行优化,具体计算公式如下:数从多个...

【专利技术属性】
技术研发人员:景丽萍宋明阳
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1