【技术实现步骤摘要】
关键词抽取方法、装置及电子设备
[0001]本公开属于关键词抽取
,具体涉及一种关键词抽取方法、装置及电子设备。
技术介绍
[0002]随着的信息技术快速发展,需要从大量的网络文本数据中准确抽取所需文本信息。
[0003]通常,关键词抽取是指在对象文本中自动抽取能够体现文章内容中心概念或者相对重要的词语。目前,主要是基于Text Rank算法进行关键词的抽取,预先规定部分关键权重的量化指标,根据词语的共现关系构建词的图模型,通过权重计算得分并排序,最后选出综合影响得分较高的多个词作为关键词。
[0004]然而,目前的Text Rank算法主要利用文档本身的结构信息,若一些关键词无法通过文档本身结构信息准确获取,例如出现的频率较低,无法确定是否为关键字,对于不频繁出现的关键词,若继续采用目前的Text Rank算法提取关键字,则会导致关键词的抽取不够准确。
技术实现思路
[0005]本公开实施例的目的是提供一种关键词抽取方法、装置及电子设备,能够解决关键词抽取不准确的问题。
[00 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种关键词抽取方法,其特征在于,所述方法包括:基于文本和所述文本对应的领域词典,构建所述文本的候选关键词词图;根据所述候选关键词词图和所述领域词典,确定所述候选关键词词图中每个词节点的覆盖范围影响力和专用节点影响力;根据所述每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;根据所述每个词节点的综合跳转概率,确定所述文本对应的权重转移矩阵;基于所述权重转移矩阵,抽取所述文本的关键词。2.根据权利要求1所述的方法,其特征在于,所述确定所述候选关键词词图中每个词节点的专用节点影响力,包括:根据词节点的词语在文本中的重要性权重,确定所述候选关键词词图中每个词节点的专用节点影响力。3.根据权利要求2所述的方法,其特征在于,所述根据词节点的词语在文本中的重要性权重,确定所述候选关键词词图中每个词节点的专用节点影响力,包括:基于第一预设公式,根据词节点的词语在文档中重要性权重,确定所述候选关键词词图中每个词节点的专用节点影响力;所述第一预设公式为:其中,I(v
j
)表示词节点v
j
在文本中的重要性权重,Out(v
i
)表示词节点v
i
指向的词节点的集合,若v
j
属于所述领域词典中的专用名词,则I(v
j
)等于第一数值,若v
j
不属于所述领域词典中的专用名词,则I(v
j
)等于第二数值,所述第一数值大于所述第二数值。4.根据权利要求3所述的方法,其特征在于,所述根据所述每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率,包括:基于第二预设公式,根据所述每个词节点的覆盖范围影响力和专用节点影响力,确定每个词节点的综合跳转概率;所述第二预设公式为:P(v
i
,v
j
)=αgP
loc
(v
i
,v
j
)+βgP
range
(v
i
,v
技术研发人员:李俊,
申请(专利权)人:广州博冠信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。