【技术实现步骤摘要】
一种政务文章标题关键字提取方法、设备及存储设备
[0001]本专利技术涉及数据处理领域,尤其涉及一种政务文章标题提取方法、设备及存储设备。
技术介绍
[0002]一段文本的关键词是指最能代表文本核心关键内容的词汇,关键短语则指相邻关键词的组合。在构建文件搜索系统时,往往需要首先提取文章标题的关键词和关键短语,进而建立关键词或关键短语与文件的关联关系或索引映射,从而实现基于关键词或关键短语的文件快速搜索。
[0003]TextRank是一种基于图排序的文本关键词提取算法,它利用关键词在窗口中的共现关系,在相关联候选关键词之间建立连边,形成词共现网络,通过迭代计算得到每个关键词的权重。在固定窗口长度下,其算法结果与词频、词所处位置相关,多用于长文本关键词、关键短语及关键句提取。传统的TextRank算法,如CN109918660A 一种基于TextRank的关键词提取方法和装置、CN114328865A 一种改进的TextRank多特征融合教育资源关键词提取方法、CN110728136A 一种融合多因素的textrank ...
【技术保护点】
【技术特征摘要】
1.一种政务文章标题提取方法,其特征在于:包括以下步骤:S1:获取短文本集合A,提取短文本集合A中的一个短文本a,并从短文本a中提取分词结果T;S2:从分词结果T中选择词语T
i
,计算其逆文本频率值IDF;其中i表示词语的序号;S3:根据逆文本频率值IDF对短文本a进行预处理,得到预处理后的短文本a`及其对应的分词结果T`;S4:计算分词结果T`中关键词词语T
i
`的语义相似度P
i
;S5:在短文本a`首尾处各补充一个占位符,得到短文本及其对应的分词结果;S6:根据语义相似度P
i
计算分词结果中关键词的得分如下:其中,max
P
为分词结果T`各关键词词语中最大的语义相似度,min
P
为分词结果T`各关键词词语中最小的语义相似度;d为阻尼系数;在短文本中,与共现的节点记作,中的第j个节点记作;与共现的节点记作,中的第k个节点记作;W
ji
为与的共现次数,W
jk
为与的共现次数;S7:计算由相邻两个关键词和组成的关键短语D
mn
的得分;S8、按关键词短语得分...
【专利技术属性】
技术研发人员:李颖,陈胜鹏,梅龙,
申请(专利权)人:吉奥时空信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。