一种政务文章标题关键字提取方法、设备及存储设备技术

技术编号：37706428 阅读：47 留言：0更新日期：2023-06-01 23:55

本发明专利技术涉及一种政务文章标题提取方法、设备及存储设备，方法包括以下步骤：获取短文本集合A，提取A中的一个短文本a，并从a中提取分词结果T；从T中选择词语T

全部详细技术资料下载

【技术实现步骤摘要】
一种政务文章标题关键字提取方法、设备及存储设备

[0001]本专利技术涉及数据处理领域，尤其涉及一种政务文章标题提取方法、设备及存储设备。

技术介绍

[0002]一段文本的关键词是指最能代表文本核心关键内容的词汇，关键短语则指相邻关键词的组合。在构建文件搜索系统时，往往需要首先提取文章标题的关键词和关键短语，进而建立关键词或关键短语与文件的关联关系或索引映射，从而实现基于关键词或关键短语的文件快速搜索。
[0003]TextRank是一种基于图排序的文本关键词提取算法，它利用关键词在窗口中的共现关系，在相关联候选关键词之间建立连边，形成词共现网络，通过迭代计算得到每个关键词的权重。在固定窗口长度下，其算法结果与词频、词所处位置相关，多用于长文本关键词、关键短语及关键句提取。传统的TextRank算法，如CN109918660A 一种基于TextRank的关键词提取方法和装置、CN114328865A 一种改进的TextRank多特征融合教育资源关键词提取方法、CN110728136A 一种融合多因素的textrank...

【技术保护点】

【技术特征摘要】
1.一种政务文章标题提取方法，其特征在于：包括以下步骤：S1：获取短文本集合A，提取短文本集合A中的一个短文本a，并从短文本a中提取分词结果T；S2：从分词结果T中选择词语T
i
，计算其逆文本频率值IDF；其中i表示词语的序号；S3：根据逆文本频率值IDF对短文本a进行预处理，得到预处理后的短文本a`及其对应的分词结果T`；S4：计算分词结果T`中关键词词语T
i
`的语义相似度P
i
；S5：在短文本a`首尾处各补充一个占位符，得到短文本及其对应的分词结果；S6：根据语义相似度P
i
计算分词结果中关键词的得分如下：其中，max
P
为分词结果T`各关键词词语中最大的语义相似度，min
P
为分词结果T`各关键词词语中最小的语义相似度；d为阻尼系数；在短文本中，与共现的节点记作，中的第j个节点记作；与共现的节点记作，中的第k个节点记作；W
ji
为与的共现次数，W
jk
为与的共现次数；S7：计算由相邻两个关键词和组成的关键短语D
mn
的得分；S8、按关键词短语得分...

【专利技术属性】
技术研发人员：李颖，陈胜鹏，梅龙，
申请(专利权)人：吉奥时空信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人