一种政务文章标题关键字提取方法、设备及存储设备技术

技术编号:37706428 阅读:47 留言:0更新日期:2023-06-01 23:55
本发明专利技术涉及一种政务文章标题提取方法、设备及存储设备,方法包括以下步骤:获取短文本集合A,提取A中的一个短文本a,并从a中提取分词结果T;从T中选择词语T

【技术实现步骤摘要】
一种政务文章标题关键字提取方法、设备及存储设备


[0001]本专利技术涉及数据处理领域,尤其涉及一种政务文章标题提取方法、设备及存储设备。

技术介绍

[0002]一段文本的关键词是指最能代表文本核心关键内容的词汇,关键短语则指相邻关键词的组合。在构建文件搜索系统时,往往需要首先提取文章标题的关键词和关键短语,进而建立关键词或关键短语与文件的关联关系或索引映射,从而实现基于关键词或关键短语的文件快速搜索。
[0003]TextRank是一种基于图排序的文本关键词提取算法,它利用关键词在窗口中的共现关系,在相关联候选关键词之间建立连边,形成词共现网络,通过迭代计算得到每个关键词的权重。在固定窗口长度下,其算法结果与词频、词所处位置相关,多用于长文本关键词、关键短语及关键句提取。传统的TextRank算法,如CN109918660A 一种基于TextRank的关键词提取方法和装置、CN114328865A 一种改进的TextRank多特征融合教育资源关键词提取方法、CN110728136A 一种融合多因素的textrank关键词提取算法等,在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种政务文章标题提取方法,其特征在于:包括以下步骤:S1:获取短文本集合A,提取短文本集合A中的一个短文本a,并从短文本a中提取分词结果T;S2:从分词结果T中选择词语T
i
,计算其逆文本频率值IDF;其中i表示词语的序号;S3:根据逆文本频率值IDF对短文本a进行预处理,得到预处理后的短文本a`及其对应的分词结果T`;S4:计算分词结果T`中关键词词语T
i
`的语义相似度P
i
;S5:在短文本a`首尾处各补充一个占位符,得到短文本及其对应的分词结果;S6:根据语义相似度P
i
计算分词结果中关键词的得分如下:其中,max
P
为分词结果T`各关键词词语中最大的语义相似度,min
P
为分词结果T`各关键词词语中最小的语义相似度;d为阻尼系数;在短文本中,与共现的节点记作,中的第j个节点记作;与共现的节点记作,中的第k个节点记作;W
ji
为与的共现次数,W
jk
为与的共现次数;S7:计算由相邻两个关键词和组成的关键短语D
mn
的得分;S8、按关键词短语得分...

【专利技术属性】
技术研发人员:李颖陈胜鹏梅龙
申请(专利权)人:吉奥时空信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1