一种政务文章标题关键字提取方法、设备及存储设备技术

技术编号:37706428 阅读:19 留言:0更新日期:2023-06-01 23:55
本发明专利技术涉及一种政务文章标题提取方法、设备及存储设备,方法包括以下步骤:获取短文本集合A,提取A中的一个短文本a,并从a中提取分词结果T;从T中选择词语T

【技术实现步骤摘要】
一种政务文章标题关键字提取方法、设备及存储设备


[0001]本专利技术涉及数据处理领域,尤其涉及一种政务文章标题提取方法、设备及存储设备。

技术介绍

[0002]一段文本的关键词是指最能代表文本核心关键内容的词汇,关键短语则指相邻关键词的组合。在构建文件搜索系统时,往往需要首先提取文章标题的关键词和关键短语,进而建立关键词或关键短语与文件的关联关系或索引映射,从而实现基于关键词或关键短语的文件快速搜索。
[0003]TextRank是一种基于图排序的文本关键词提取算法,它利用关键词在窗口中的共现关系,在相关联候选关键词之间建立连边,形成词共现网络,通过迭代计算得到每个关键词的权重。在固定窗口长度下,其算法结果与词频、词所处位置相关,多用于长文本关键词、关键短语及关键句提取。传统的TextRank算法,如CN109918660A 一种基于TextRank的关键词提取方法和装置、CN114328865A 一种改进的TextRank多特征融合教育资源关键词提取方法、CN110728136A 一种融合多因素的textrank关键词提取算法等,在TextRank算法基础上增加了词语长度、词性对关键词得分的影响,其在长文本关键字提取应用中表现良好,但并不适用于政务文章这类短文本的提取情况,其原因主要如下:(1)在政务文章标题等短文本中,词语一般较为简单,词语一般不会重复出现,因而词频固定;(2)在政务文章标题等短文本中,词语长度一般固定为2

3个字,且词长一般不影响词汇的关键性;(3)在政务文章标题等短文本中,词性一般单一或固定,多以名词为主。
[0004]传统方法中,对于词位置的处理是设置为中间权重大,两端小,但在文章标题等短文本中,词位置对词关键性的影响较为随机。因此传统的TextRank算法提取其短文本关键词,或者即使能够提取,但其提取的准确度较低。

技术实现思路

[0005]为解决传统TextRank算法提取其短文本关键词不适用或准确度低的技术问题,本专利技术提出了一种政务文章标题提取方法、设备及存储设备,其中,方法采取两端补充占位符的方式,消解词位置对关键性的影响,同时通过融合语义相似度,改进传统的TextRank计算公式,使得计算结果能够兼顾语义相似度与词共现关系,从而提升关键词提取准确度。
[0006]本专利技术供的一种政务文章标题提取方法,具体包括以下步骤:S1:获取短文本集合A,提取短文本集合A中的一个短文本a,并从短文本a中提取分词结果T;S2:从分词结果T中选择词语T
i
,计算其逆文本频率值IDF;其中i表示词语的序号;S3:根据逆文本频率值IDF对短文本a进行预处理,得到预处理后的短文本a`及其
对应的分词结果T`;S4:计算分词结果T`中关键词词语T
i
`的语义相似度P
i
;S5:在短文本a`首尾处各补充一个占位符,得到短文本及其对应的分词结果;S6:根据语义相似度P
i
计算分词结果中关键词的得分如下:其中,max
P
为分词结果T`各关键词词语中最大的语义相似度,min
P
为分词结果T`各关键词词语中最小的语义相似度;d为阻尼系数;在短文本中,与共现的节点记作,中的第j个节点记作;与共现的节点记作,中的第k个节点记作;W
ji
为与的共现次数,W
jk
为与的共现次数;S7:计算由相邻两个关键词和组成的关键短语D
mn
的得分;S8、按关键词短语得分,由高到低输出提取结果。
[0007]一种存储设备,所述存储设备存储指令及数据用于实现一种政务文章标题提取方法。
[0008]一种政务文章标题提取设备,包括:处理器及所述存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现一种政务文章标题提取方法。
[0009]本专利技术提供的有益效果是:综合考虑了词语词频、词间关联关系和语义相似度,有效提高了短文本标题尤其是政务网文章标题关键字的提取精度。
附图说明
[0010]图1是本专利技术方法流程示意图;图2是本专利技术实施例的硬件设备工作示意图。
具体实施方式
[0011]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地描述。
[0012]请参考图1,图1是本专利技术方法的流程图;本专利技术提供的一种政务文章标题提取方法,方法具体包括以下步骤:S1:获取短文本集合A,提取短文本集合A中的一个短文本a,并从短文本a中提取分词结果T;作为一种实施例,这里以某部门政务文件举例;首先,某部门政务文件总数N
A
为1115件;其对应标题如下表1所示:表1 短文本A集合示例
S2:从分词结果T中选择词语T
i
,计算其逆文本频率值IDF;其中i表示词语的序号;步骤S2中逆文本频率值IDF的计算公式如下:其中N
A
为短文本集合A中的短文本总数,N
i
为含有词语T
i
的短文本数;S3:根据逆文本频率值IDF对短文本a进行预处理,得到预处理后的短文本a`及其对应的分词结果T`;步骤S3中所述预处理,具体指:去除短文本a及分词结果T中IDF值低于预设阈值V
IDF
的词语;下面以表格1中序号为1的文件标题短文本为例说明步骤S2~S3的实施结果。
[0013]短文本a为“市人民政府办公厅关于印发武汉市完善和改进灵活就业人员社会保险参保缴费工作方案的通知”,对其分词结果去除停用词“的”、“和”后,得到T=['市','人民政府','办公厅','关于','印发','武汉市','完善','改进','灵活','就业','人员','社会保险','参保','缴费','工作','方案','通知'],各词语的IDF值计算结果如表2所示。
[0014]表2 各关键词词语及其IDF值在本实施例中,设置阈值V
IDF
=lg(N
A
/(N
A
*0.85))≈0.0706去除IDF值低于预设阈值V
IDF
的词语后,获得预处理后a`=“印发武汉市完善改进灵活就业人员社会保险参保缴费工作方案”,a`的分词结果T`=['印发','武汉市','完善','改进','灵活','就业','人员','社会保险','参保','缴费','工作','方案']。
[0015]S4:计算分词结果T`中关键词词语T
i
`的语义相似度P
i

对上述T`中的词语使用keyBert计算语义相似度结果如下表3所示。
[0016]表3语义相似度结果表S5:在短文本a`首尾处各补充一个占位符,得到短文本及其对应的分词结果;S6:根据语义相似度P
i
计算分词结果中关键词的得分如下:其中,max
P
为分词结果T`各关键词词语中最大的语义相似度,min<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种政务文章标题提取方法,其特征在于:包括以下步骤:S1:获取短文本集合A,提取短文本集合A中的一个短文本a,并从短文本a中提取分词结果T;S2:从分词结果T中选择词语T
i
,计算其逆文本频率值IDF;其中i表示词语的序号;S3:根据逆文本频率值IDF对短文本a进行预处理,得到预处理后的短文本a`及其对应的分词结果T`;S4:计算分词结果T`中关键词词语T
i
`的语义相似度P
i
;S5:在短文本a`首尾处各补充一个占位符,得到短文本及其对应的分词结果;S6:根据语义相似度P
i
计算分词结果中关键词的得分如下:其中,max
P
为分词结果T`各关键词词语中最大的语义相似度,min
P
为分词结果T`各关键词词语中最小的语义相似度;d为阻尼系数;在短文本中,与共现的节点记作,中的第j个节点记作;与共现的节点记作,中的第k个节点记作;W
ji
为与的共现次数,W
jk
为与的共现次数;S7:计算由相邻两个关键词和组成的关键短语D
mn
的得分;S8、按关键词短语得分...

【专利技术属性】
技术研发人员:李颖陈胜鹏梅龙
申请(专利权)人:吉奥时空信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1