【技术实现步骤摘要】
一种面向兴趣挖掘的多特征改进TextRank关键词提取方法
[0001]本专利技术涉及自然语言处理
,更具体的说是涉及一种面向兴趣挖掘的多特征改进TextRank关键词提取方法。
技术介绍
[0002]用户兴趣主题提取主要通过对用户的互动学术资源集合的文本挖掘来完成,即该问题可转化为对用户互动资源集合的文本主题词提取。对于文本主题词提取,比较主流的方法有基于词频统计模型、基于主题模型和基于词汇图模型的关键词抽取3种。
[0003]基于词频统计模型的关键词抽取方法以TF
‑
IDF算法为代表,但TF
‑
IDF算法仅考虑词频特征,忽略了词语之间的语义关系。
[0004]基于主题模型关键词抽取方法以LDA隐含主题模型为典型代表,LDA的主题模型通常需要对语料进行训练得到,该方法抽取得到关键词的质量受训练文档集主题分布的影响较大,且仅考虑了主题信息,丢失了关键词本身的统计特征信息。
[0005]基于词汇图模型的关键词抽取以TextRank算法为代表,基本思想是把文档看作 ...
【技术保护点】
【技术特征摘要】
1.一种面向兴趣挖掘的多特征改进TextRank关键词提取方法,其特征在于,包括以下步骤,获取行为数据,并根据所述行为数据生成主题备选词集合;计算所述主题备选词集合中各个备选词的词频:其中,TF
kh
表示备选主题词v
kh
的改进词频,t为备选主题词v
kh
的出现时间,t
min
为主题备选词集合V
k
中所有备选主题词的最新出现时间,t
max
为集合主题备选词集合V
k
中所有备选主题词的最早出现时间;根据所述词频计算词频重要性,并根据所述词频重要性构建重要性字典;基于重要性字典对预先构建TextRank词网络图中各个备选词的值进行迭代直至收敛,得到最终的TextRank值;根据所述最终的TextRank值,降序提取关键词。2.根据权利要求1所述的一种面向兴趣挖掘的多特征改进TextRank关键词提取方法,其特征在于,根据所述词频重要性构建重要性字典,步骤包括:在生成所述主题备选词集合后,获取各个备选词的词性,并根据预设的词性重要性取值函数,生成词性重要性字典;获取各个备选词的词位置,并根据预设的词位置重要性取值函数,生成词位置重要性字典;对所述词频重要性、所述词性重要性和所述词位置重要性进行加权计算,生成重要性词典。3.根据权利要求2所述的一种面向兴趣挖掘的多特征改进TextRank关键词提取方法,其特征在于,在计算所述词频重要性之后,还包括计算所述词频重要性的平衡量纲,计算公式为:其中,max(w
fkh
)表示第k个用户所有备选主题词中词频重要性的最大值;根据平衡量纲后的词频重要性W
frekh
,构建词频重要性字典。4.根据权利要求1所述的一种面向兴趣挖掘的多特征改进TextRank关键词提取方法...
【专利技术属性】
技术研发人员:张洁,赵瑞雪,朱亮,杜若鹏,寇远涛,祝计高,叶飒,
申请(专利权)人:中国农业科学院农业信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。