一种基于主题语义感知的特征关键词提取方法技术

技术编号:26762638 阅读:30 留言:0更新日期:2020-12-18 23:14
本发明专利技术公开一种基于主题语义感知的特征关键词提取方法,具体包括如下过程:首先,利用关键词与文档主题之间的语义相关度的量化方法,计算关键词集合中每一个关键词的信息增益得分,并计算文档中每一个关键词的主题频率‑逆主题频率(TF‑ITF)得分;然后,选取信息增益得分最大的前κ个关键词,构成信息增益特征关键词集合;并分别针对每个文档,选取该文档中主题相关度得分最大的前λ个关键词,进而构成全局主题信息特征关键词集合;最终,对全局信息增益特征关键词集合和全局主题信息特征关键词集合进行合并,生成最终的特征关键词集合。本发明专利技术综合考虑关键词之间以及关键词和文档之间的主题语义关系,实现表征文档主题语义信息的特征关键词提取。

【技术实现步骤摘要】
一种基于主题语义感知的特征关键词提取方法
本专利技术属于自然语言处理和文本挖掘领域,具体的说是涉及一种基于主题语义感知的特征关键词提取方法。
技术介绍
随着大数据时代的到来,信息爆炸式增长,人们接触到的文档数据日趋增多,面对庞大、繁杂的数据,快速、准确地检索数据,从中挖掘出有用的信息,显得尤为重要,特征关键词提取就是一种有效手段,在文档数据的利用方面起着重要作用,比如在信息检索场景中,精准的关键词提取能大幅提高检索效率,特征关键词提取,就是抓取出最能够代表文档主题和内容的特征词,特征关键词提取作为自然语言处理和文本挖掘领域中的关键技术,在文档检索、文本分类、摘要生成和信息过滤中有着广泛的应用。现有的特征关键词提取方法可以分为有监督和无监督两类。有监督的方法是将关键词提取看作二分类问题,通过标记语料库训练模型,判断文档中的词语是否为关键词,无监督的方法是将关键词提取看作排序问题,可以分为三大类:一是基于统计的特征关键词提取,二是基于词图模型的特征关键词提取,三是基于主题模型的特征关键词提取。统计方法主要利用词频、词频-逆文档频率、词性、词本文档来自技高网...

【技术保护点】
1.一种基于主题语义感知的特征关键词提取方法,其特征在于:所述提取方法包括如下步骤:/n(1a)根据LDA主题模型,以文档集D作为输入进行训练,提取蕴含语义属性的主题集合T,生成文档-主题矩阵Θ和关键词-主题矩阵Ω;/n(1b)采用基于LDA模型的信息增益计算方法,计算文档集D对应的关键词集合W中每一个关键词的信息增益得分,选取信息增益得分最大的前κ个关键词,构成文档集D的全局信息增益特征关键词集合FW

【技术特征摘要】
1.一种基于主题语义感知的特征关键词提取方法,其特征在于:所述提取方法包括如下步骤:
(1a)根据LDA主题模型,以文档集D作为输入进行训练,提取蕴含语义属性的主题集合T,生成文档-主题矩阵Θ和关键词-主题矩阵Ω;
(1b)采用基于LDA模型的信息增益计算方法,计算文档集D对应的关键词集合W中每一个关键词的信息增益得分,选取信息增益得分最大的前κ个关键词,构成文档集D的全局信息增益特征关键词集合FWIG;
(1c)利用主题频率-逆主题频率和信息增益的计算方法,计算文档dj∈D中每一个关键词的主题相关度得分,选取主题相关度得分最大的前λ个关键词,构成文档dj的主题信息特征关键词集合合并得到文档集D的全局主题信息特征关键词集合FWTR;
(1d)对全局信息增益特征关键词集合FWIG和全局主题信息特征关键词集合FWTR合并,构成文档集的特征关键词集合FW=FWIG∪FWTR。


2.根据权利要求1所述一种基于主题语义感知的特征关键词提取方法,其特征在于:在所述步骤(1b)中,基于LDA模型的信息增益计算方法包括如下步骤:
(1b1)计算主题集合的信息熵H(T),计算公式如下:



其中ti是主题集合T中的第i个主题,P(ti)是主题i在文档集D中出现的概率,
(1b2)针对W中的每一个关键词wi,计算wi在主题集合T下的条件信息熵H(T|wi),计算公式如下:



其中,P(wi)是wi在D中的概率,P(tj|wi)是wi在主题tj下的概率,P(tj|wi)=Ω[i][j]·P(tj)。是wi不在tj下的概率,
(1b3)根据(1b1)和(1b2)中得到的T的信息熵和wi在T下的条件信息熵,计算关键词wi在T下的信息...

【专利技术属性】
技术研发人员:戴华姜莹莹戴雪龙周倩杨庚黄海平
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1