一种基于电力行业特征关键词的摘要提取方法及存储介质技术

技术编号:20680924 阅读:25 留言:0更新日期:2019-03-27 18:52
本发明专利技术公开了一种基于电力行业特征关键词的摘要提取方法及存储介质,其中方法包括如下步骤:获取行业词库、文本内容,行业词库包括行业关键词以及与行业关键词相对应的权重系数,对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数及相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容,通过采用基于电力行业特征关键词的摘要提取方法,依靠包括行业关键词以及与行业关键词相对应的权重系数,在文本内容分段后对各个段落的文本内关键词进行打分,并依靠分值为段落进行排序并确定摘要内容,实现摘要的自动提取,解决了固定岗位人工阅读识别效率低下的问题。

【技术实现步骤摘要】
一种基于电力行业特征关键词的摘要提取方法及存储介质
本专利技术涉及关键词摘要提取方法领域,特别涉及一种基于电力行业特征关键词的摘要提取方法。
技术介绍
办公外部收文办理是由办公室文书收取上级外部单位指派办理的公文,通常上级外部单位的公文同时指派下发到多个央企单位和政府部门,涉及内容较为广泛,与本公司相关的重点内容只是其中某个段落。办公室文书的工作职责是每天及时收取外部公文进行内容详细阅读,从大量的公文内容中识别出与本单位相关的工作重点内容摘要和承办任务项,进一步转发给相关承办业务部门或者业务负责人进行办理,是一项办公业务中常见的工作内容。传统的外部收文办理一般由办公室文书人工判断来完成,根据个人的工作经验,每天需花费大量的时间精力进行大量公文内容的阅读,由于该岗位相对于固定,在人员工作任务繁重时难以轮岗替代,且上级外部单位指派的任务通常较为紧急,容易出现效率底下导致工作延误,影响了领导决策和任务下发办理的及时性。
技术实现思路
为此,需要提供一种基于电力行业特征关键词的摘要提取方法,以解决人工进行摘要提取时容易出现效率底下导致工作延误的问题。为实现上述目的,专利技术人提供了一种基于电力行业特征关键词的摘要提取方法,包括如下步骤:获取行业词库、文本内容;所述行业词库包括行业关键词以及与行业关键词相对应的权重系数;对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数或相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容。进一步地,还包括行业词库构建步骤,所述行业词库构建步骤包括:对电力行业相关的摘要文本进行输入;对电力行业相关的摘要文本中出现的常用词进行提取;对提取出的常用词添加对应的权重系数,其中,常用词作为行业词库的行业关键词,常用词对应的权重系数作为行业词库内行业关键词相对应的权重系数。进一步地,行业词库构建步骤的电力行业相关的摘要文本进行输入之后还包括过滤步骤,对摘要文本中提取的常用词进行过滤。进一步地,权重系数的计算方法包括常用词在输入文本中出现的频率。为实现上述目的,专利技术人还提供了一种电力行业特征关键词的摘要提取存储介质,存储有计算机程序,所述计算机程序在被运行时执行步骤:获取行业词库、文本内容;所述行业词库包括行业关键词以及与行业关键词相对应的权重系数;对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数或相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容。进一步地,所述计算机程序在被运行时还执行包括行业词库构建步骤,所述行业词库构建步骤包括:对电力行业相关摘要文本进行输入;对电力行业相关摘要文本中出现的常用词进行提取;对提取出的常用词添加对应的权重系数,其中,常用词作为行业词库的行业关键词,常用词对应的权重系数作为行业词库内行业关键词相对应的权重系数。进一步地,所述计算机程序在被运行时还执行过滤步骤,过滤步骤位于行业词库构建步骤的电力行业相关的摘要文本进行输入之后,对电力行业相关摘要文本中提取的常用词进行过滤。进一步地,权重系数的计算方法包括常用词在输入文本中出现的频率。区别于现有技术,上述技术方案具有如下优点:通过采用基于电力行业特征关键词的摘要提取方法,依靠包括行业关键词以及与行业关键词相对应的权重系数,在文本内容分段后对各个段落的文本内关键词进行打分,并依靠分值为段落进行排序并确定摘要内容,实现摘要的自动提取,解决了固定岗位人工阅读识别效率低下的问题。附图说明图1为本专利技术实施例中基于电力行业特征关键词的摘要提取方法流程图。具体实施方式为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。请参阅图1,本实施例公开了一种基于电力行业特征关键词的摘要提取方法,包括如下步骤:S106获取行业词库、文本内容;S107对文本内容进行分段;S108依据行业关键词在分段后的段落中的出现次数及相对应的权重系数对文本内容的段落进行打分;S109根据段落的分值为各个段落进行排序;S110选取摘要内容。其中行业词库包括行业关键词以及与行业关键词相对应的权重系数。在本实施例中,行业关键词为预先储存的,行业关键词相对应的权重系数的数值为预设值。本专利技术的段落特征可采用检测段落前的自动缩进的方法实现段落的分段,也可采用检测前一段段落末尾换行符的方法实现对文本内容的分段。具体的摘要提取方法可以为:1)将待提取摘要的文本输入,识别待提取摘要的文本内文字、标点符号以及段落特征。2)依照待提取摘要的文本的段落特征,将文本分成各个段落待打分的段落。3)将各个段落内的文字与行业词库内的行业关键词进行比对,采集段落内出现的行业关键词及行业关键词相对应的权重系数,对各个段落进行计算打分。4)依据各个段落所得到的分值对各个段落进行分值由高到低的排序。5)将分值最高的段落作为摘要内容。在一些简化了的实施例中,文本内容被分为三个段落D1、D2、D3,段落D1包含行业关键词X1和X2,段落D2包含行业关键词X2和X3,段落D3包含行业关键词X3和X4。在本例中,段落D1的关键词X1和X2的出现次数为3次和2次,段落D2的关键词X2和X3出现次数均为2次,段落D3的关键词X3和X4出现的次数为3次和4次,已知关键词X1、X2、X3、X4在行业词库内的权重系数分别为0.3、0.5、0.9和0.7。则各个段落的分值计算过程如下:D1的分值S1=3*0.3+2*0.5=1.9;D2的分值S2=2*0.5+2*0.9=2.8;D3的分值S3=3*0.9+4*0.7=5.5。根据上述计算过程,得出段落D1、D2、D3按照分值的排序顺序为D3、D2、D1,最终将排序顺序位于最前的D3作为摘要文本。具体的摘要提取方法还可以为:1)将待提取摘要的文本输入,识别待提取摘要的文本内文字、标点符号以及段落特征。2)依照待提取摘要的文本的段落特征,将文本分成各个段落待打分的段落。3)将各个段落内的文字与行业词库内的行业关键词进行比对,采集段落内出现的行业关键词及行业关键词相对应的权重系数,对各个段落进行计算打分。4)依据各个段落所得到的分值对各个段落进行分值由高到低的排序。5)将行业关键词相对应的权重系数中排名前三中随机采用任一段落作为摘要内容。在一些简化了的实施例中,文本内容被分为四个段落D1、D2、D3、D4,段落D1包含行业关键词X1和X2,段落D2包含行业关键词X2和X3,段落D3包含行业关键词X3和X4,段落D4包含行业关键词X1和X3。在本例中,段落D1的关键词X1和X2的出现次数为3次和2次,段落D2的关键词X2和X3出现次数均为2次,段落D3的关键词X3和X4出现的次数为3次和4次,段落D4的关键词X1和X3出现的次数为2次和1次,已知关键词X1、X2、X3、X4在行业词库内的权重系数分别为0.3、0.5、0.9和0.7。则各个段落的分值计算过程如下:D1的分值S1=3*0.3+2*0.5=1.9;D2的分值S2=2*0.5+2*0.9=2.8;D3的分值S3=3*0.9+4*0.7=5.5;D4的分值S4=2*0.3+1*0.9=1.5。根据上述计算过程,得出段落D1、D2、D3和D4按照分值的排序顺序为D3、本文档来自技高网
...

【技术保护点】
1.一种基于电力行业特征关键词的摘要提取方法,其特征在于,包括如下步骤:获取行业词库、文本内容;所述行业词库包括行业关键词以及与行业关键词相对应的权重系数;对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数或相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容。

【技术特征摘要】
1.一种基于电力行业特征关键词的摘要提取方法,其特征在于,包括如下步骤:获取行业词库、文本内容;所述行业词库包括行业关键词以及与行业关键词相对应的权重系数;对文本内容进行分段,依据行业关键词在分段后的段落中的出现次数或相对应的权重系数对文本内容的段落进行打分,并根据段落的分值为各个段落进行排序,选取摘要内容。2.根据权利要求1所述的基于电力行业特征关键词的摘要提取方法,其特征在于,还包括行业词库构建步骤,所述行业词库构建步骤包括:对电力行业相关的摘要文本进行输入;对电力行业相关的摘要文本中出现的常用词进行提取;对提取出的常用词添加对应的权重系数,其中,常用词作为行业词库的行业关键词,常用词对应的权重系数作为行业词库内行业关键词相对应的权重系数。3.根据权利要求2所述的基于电力行业特征关键词的摘要提取方法,其特征在于,行业词库构建步骤的电力行业相关的摘要文本进行输入之后还包括过滤步骤,对摘要文本中提取的常用词进行过滤。4.根据权利要求2所述的基于电力行业特征关键词的摘要提取方法,其特征在于,权重系数的计算方法包括常用词在输入文本中出现的频率。5.一种电力行业特征关键词的摘要提取存储介质,其特征在于...

【专利技术属性】
技术研发人员:周峰佟纯杨迪庄莉林振天袁宝峰
申请(专利权)人:国家电网有限公司福建亿榕信息技术有限公司国网信息通信产业集团有限公司国网信通亿力科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1