【技术实现步骤摘要】
一种关键词抽取方法、装置及储存介质
[0001]本专利技术涉及自然语言处理领域,特别涉及一种关键词抽取方法、装置及储存介质。
技术介绍
[0002]近年来,根据模型训练方式的不同,文本关键词抽取方法主要分为无监督方法和有监督方法两种类型。有监督方法是将关键词抽取转换为判断文本中的每一个词是否为关键词的二分类问题或者序列标注问题。随着深度学习技术的迅速发展,采用深度学习模型对关键词抽取的有监督方法层出不穷,且达到了较高的准确率和召回率。但这类模型的训练依赖大规模语料和高质量的人工标注,需要耗费大量的资源。相比之下,无监督方法不依赖大规模语料和人工标注,方便快捷。目前无监督关键词抽取方法主要分为基于统计、基于主题、基于聚类、基于图模型四类,其中,基于图模型的关键词抽取方法,相比于其他方法充分考虑到了文本的结构特征和词汇间关联特征,对关键词地抽取的效果较好,得到了广泛的运用。
技术实现思路
[0003]专利技术人发现,现有的无监督抽取文本关键词的方法,对文本关键词抽取的准确率和召回率均有限,关键词抽取的效果还存在较大的提升空间。为了至少部分地解决现有技术存在的技术问题,专利技术人做出本专利技术,通过具体实施方式,提供的技术方案如下:
[0004]第一方面,本专利技术实施例提供一种关键词抽取方法,包括以下步骤:
[0005]对待抽取文本进行分词,得到分词集合;
[0006]根据预设的词图模型,构建所述分词集合对应的分词词图;
[0007]根据所述分词集合中各分词的义原,分别生成 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种关键词抽取方法,其特征在于,包括:对待抽取文本进行分词,得到分词集合;根据预设的词图模型,构建所述分词集合对应的分词词图;根据所述分词集合中各分词的义原,分别生成对应分词的词向量;根据各分词的词向量计算得到所述分词词图中邻接分词间的词义相似度,并根据所述词义相似度计算得到所述分词词图中各分词的初始分数;根据所述初始分数,对所述分词集合中的分词进行筛选,得到至少一个候选关键词;确定各所述候选关键词的词频
‑
逆向文件频率值,并对所述词频
‑
逆向文件频率值和所述初始分数进行处理,得到各候选关键词的最终分数;根据所述最终分数,对所述至少一个候选关键词进行筛选,得到至少一个关键词。2.如权利要求1所述的关键词抽取方法,其特征在于,所述根据所述分词集合中各分词的义原,分别生成对应分词的词向量,包括:确定所述分词集合中各分词对应的义项,以及所述义项对应的义原;根据所述义项对应的义原的义原向量,生成各义项的义项向量;根据注意力机制,分别对各所述分词对应的义项的义项向量进行加权求和,得到对应分词的词向量。3.如权利要求2所述的关键词抽取方法,其特征在于,所述根据所述义项对应的义原的义原向量,生成各义项的义项向量,具体包括:计算所述义项对应的各义原的义原向量的平均值,得到对应义项的义项向量。4.如权利要求3所述的关键词抽取方法,其特征在于,所述根据注意力机制,分别对各所述分词对应的义项的义项向量进行加权求和采用如下计算公式:其中,e表示分词w的词向量,表示分词w的第j个义项的义项向量,表示分词w的第j个义项的权重;所述分词w的第j个义项的权重采用如下计算公式计算得到:其中,分别表示分词w的第j个和第k个义项的义项向量,w
c
′
表示分词w的前后各预设数量个分词的词向量的平均值。5.如权利要求1所述的关键词抽取方法,其特征在于,所述根据所述词义相似度计算得到所述分词词图中各分词的初始分数采用如下计算公式:
其中,w
i
、w
j
、w
k
分别表示所述分词词图中的第i个、第j个和第k个分词,S(w
i
)、S(w
j
)分别表示分词w
i
和分词w
j
的初始分数,In(w
i
)表示所述分词词图中指向分词w
i
的分词集合;0ut(w
j
)表示所述分词词图中分词w
j
所指向的分词集合,d为平滑因子,Sim(w
i
,w
j
)表示分词w
技术研发人员:施震,黄晨,汤文华,文卫东,李旭晖,
申请(专利权)人:中证信用增进股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。