一种关键词抽取方法、装置及储存介质制造方法及图纸

技术编号:34558567 阅读:14 留言:0更新日期:2022-08-17 12:45
本发明专利技术公开了一种关键词抽取方法、装置及储存介质。所述方法包括:对待抽取文本进行分词;构建分词词图;根据各分词的义原生成对应的词向量;根据各分词的词向量计算得到所述分词词图中邻接分词间的词义相似度,并根据所述词义相似度计算各分词的初始分数,从而筛选得到候选关键词;根据各候选关键词的词频

【技术实现步骤摘要】
一种关键词抽取方法、装置及储存介质


[0001]本专利技术涉及自然语言处理领域,特别涉及一种关键词抽取方法、装置及储存介质。

技术介绍

[0002]近年来,根据模型训练方式的不同,文本关键词抽取方法主要分为无监督方法和有监督方法两种类型。有监督方法是将关键词抽取转换为判断文本中的每一个词是否为关键词的二分类问题或者序列标注问题。随着深度学习技术的迅速发展,采用深度学习模型对关键词抽取的有监督方法层出不穷,且达到了较高的准确率和召回率。但这类模型的训练依赖大规模语料和高质量的人工标注,需要耗费大量的资源。相比之下,无监督方法不依赖大规模语料和人工标注,方便快捷。目前无监督关键词抽取方法主要分为基于统计、基于主题、基于聚类、基于图模型四类,其中,基于图模型的关键词抽取方法,相比于其他方法充分考虑到了文本的结构特征和词汇间关联特征,对关键词地抽取的效果较好,得到了广泛的运用。

技术实现思路

[0003]专利技术人发现,现有的无监督抽取文本关键词的方法,对文本关键词抽取的准确率和召回率均有限,关键词抽取的效果还存在较大的提升空间。为了至少部分地解决现有技术存在的技术问题,专利技术人做出本专利技术,通过具体实施方式,提供的技术方案如下:
[0004]第一方面,本专利技术实施例提供一种关键词抽取方法,包括以下步骤:
[0005]对待抽取文本进行分词,得到分词集合;
[0006]根据预设的词图模型,构建所述分词集合对应的分词词图;
[0007]根据所述分词集合中各分词的义原,分别生成对应分词的词向量;
[0008]根据各分词的词向量计算得到所述分词词图中邻接分词间的词义相似度,并根据所述词义相似度计算得到所述分词词图中各分词的初始分数;
[0009]根据所述初始分数,对所述分词集合中的分词进行筛选,得到至少一个候选关键词;
[0010]确定各所述候选关键词的词频

逆向文件频率值,并对所述词频

逆向文件频率值和所述初始分数进行处理,得到各候选关键词的最终分数;
[0011]根据所述最终分数,对所述至少一个候选关键词进行筛选,得到至少一个关键词。
[0012]进一步的,所述根据所述分词集合中各分词的义原,分别生成对应分词的词向量,包括:
[0013]确定所述分词集合中各分词对应的义项,以及所述义项对应的义原;
[0014]根据所述义项对应的义原的义原向量,生成各义项的义项向量;
[0015]根据注意力机制,分别对各所述分词对应的义项的义项向量进行加权求和,得到对应分词的词向量。
[0016]进一步的,所述根据所述义项对应的义原的义原向量,生成各义项的义项向量,具
体包括:
[0017]计算所述义项对应的各义原的义原向量的平均值,得到对应义项的义项向量。
[0018]进一步的,所述根据注意力机制,分别对各所述分词对应的义项的义项向量进行加权求和采用如下计算公式:
[0019][0020]其中,e表示分词w的词向量,表示分词w的第j个义项的义项向量,表示分词w的第j个义项的权重;
[0021]所述分词w的第j个义项的权重采用如下计算公式计算得到:
[0022][0023]其中,分别表示分词w的第j个和第k个义项的义项向量,w
c

表示分词w的前后各预设数量个分词的词向量的平均值。
[0024]进一步的,所述根据所述词义相似度计算得到所述分词词图中各分词的初始分数采用如下计算公式:
[0025][0026]其中,w
i
、w
j
、w
k
分别表示所述分词词图中的第i个、第j个和第k个分词,S(w
i
)、S(w
j
)分别表示分词w
i
和分词w
j
的初始分数,In(w
i
)表示所述分词词图中指向分词w
i
的分词集合;0ut(w
j
)表示所述分词词图中分词w
j
所指向的分词集合,d为平滑因子,Sim(w
i
,w
j
)表示分词w
i
和w
j
之间的词义相似度,Sim(w
k
,w
j
)表示分词w
k
和w
j
之间的词义相似度。
[0027]进一步的,所述根据各分词的词向量计算得到所述分词词图中邻接分词间的词义相似度采用如下计算公式:
[0028][0029]其中,Sim(w
i
,w
j
)表示分词w
i
和w
j
之间的词义相似度,e
i
、e
j
分别表示词语w
i
、w
j
的词向量。
[0030]进一步的,所述确定各所述候选关键词的词频

逆向文件频率值,并对所述词频

逆向文件频率值和所述初始分数进行处理,得到各候选关键词的最终分数,包括:
[0031]根据各所述候选关键词在所述待抽取文本中的词频和在预设语料库中的逆向文
件频率,分别计算得到各候选关键词的词频

逆向文件频率值;
[0032]针对每一候选关键词,对所述词频

逆向文件频率值和所述初始分数进行归一化处理,并根据预设加权系数进行加权求和,得到各候选关键词的最终分数。
[0033]进一步的,所述对待抽取文本进行分词,得到分词集合,包括:
[0034]根据待处理文本所属的知识领域,使用对应领域的词典对所述待抽取文本进行分词,得到分词集合。
[0035]第二方面,本专利技术实施例提供一种关键词抽取方法装置,包括:
[0036]文本预处理模块,用于对待抽取文本进行分词,得到分词集合;
[0037]词图构建模块,用于根据预设的词图模型,构建所述分词集合对应的分词词图;
[0038]词向量生成模块,用于根据所述分词集合中各分词的义原,分别生成对应分词的词向量;
[0039]分数计算模块,用于根据各分词的词向量计算得到所述分词词图中邻接分词间的词义相似度,并根据所述词义相似度计算得到所述分词词图中各分词的初始分数;
[0040]候选关键词筛选模块,用于根据所述初始分数,对所述分词集合中的分词进行筛选,得到至少一个候选关键词;
[0041]分数修正模块,用于确定各所述候选关键词的词频

逆向文件频率值,并对所述词频

逆向文件频率值和所述初始分数进行处理,得到各候选关键词的最终分数;
[0042]关键词筛选模块,用于根据所述最终分数,对所述至少一个候选关键词进行筛选,得到至少一个关键词。
[0043]第三方面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词抽取方法,其特征在于,包括:对待抽取文本进行分词,得到分词集合;根据预设的词图模型,构建所述分词集合对应的分词词图;根据所述分词集合中各分词的义原,分别生成对应分词的词向量;根据各分词的词向量计算得到所述分词词图中邻接分词间的词义相似度,并根据所述词义相似度计算得到所述分词词图中各分词的初始分数;根据所述初始分数,对所述分词集合中的分词进行筛选,得到至少一个候选关键词;确定各所述候选关键词的词频

逆向文件频率值,并对所述词频

逆向文件频率值和所述初始分数进行处理,得到各候选关键词的最终分数;根据所述最终分数,对所述至少一个候选关键词进行筛选,得到至少一个关键词。2.如权利要求1所述的关键词抽取方法,其特征在于,所述根据所述分词集合中各分词的义原,分别生成对应分词的词向量,包括:确定所述分词集合中各分词对应的义项,以及所述义项对应的义原;根据所述义项对应的义原的义原向量,生成各义项的义项向量;根据注意力机制,分别对各所述分词对应的义项的义项向量进行加权求和,得到对应分词的词向量。3.如权利要求2所述的关键词抽取方法,其特征在于,所述根据所述义项对应的义原的义原向量,生成各义项的义项向量,具体包括:计算所述义项对应的各义原的义原向量的平均值,得到对应义项的义项向量。4.如权利要求3所述的关键词抽取方法,其特征在于,所述根据注意力机制,分别对各所述分词对应的义项的义项向量进行加权求和采用如下计算公式:其中,e表示分词w的词向量,表示分词w的第j个义项的义项向量,表示分词w的第j个义项的权重;所述分词w的第j个义项的权重采用如下计算公式计算得到:其中,分别表示分词w的第j个和第k个义项的义项向量,w
c

表示分词w的前后各预设数量个分词的词向量的平均值。5.如权利要求1所述的关键词抽取方法,其特征在于,所述根据所述词义相似度计算得到所述分词词图中各分词的初始分数采用如下计算公式:
其中,w
i
、w
j
、w
k
分别表示所述分词词图中的第i个、第j个和第k个分词,S(w
i
)、S(w
j
)分别表示分词w
i
和分词w
j
的初始分数,In(w
i
)表示所述分词词图中指向分词w
i
的分词集合;0ut(w
j
)表示所述分词词图中分词w
j
所指向的分词集合,d为平滑因子,Sim(w
i
,w
j
)表示分词w

【专利技术属性】
技术研发人员:施震黄晨汤文华文卫东李旭晖
申请(专利权)人:中证信用增进股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1