基于自动摘要的文本分类方法、系统及计算机存储介质技术方案

技术编号:27243697 阅读:32 留言:0更新日期:2021-02-04 12:16
本申请设计了自动摘要生成算法来实现电子文档核心思想(即文档摘要)的快速获取,并利用获取的摘要中的关键词来实现对该篇电子文档的准确标引分类,从而有效解决了人工标引所存在的效率低、易出错的问题,极大的提高了数据标引的效率。另外,本申请设计的自动摘要生成算法,在传统的概率统计方法的基础上充分考虑了领域内的知识,将领域词典运用到摘要算法当中,显著提高了自动摘要生成的效率及准确度。于是,本申请的数据标引方法能够实现数据自动标引的准确与高效的良好平衡。自动标引的准确与高效的良好平衡。自动标引的准确与高效的良好平衡。

【技术实现步骤摘要】
基于自动摘要的文本分类方法、系统及计算机存储介质


[0001]本申请涉及数据标引
,具体而言,涉及一种基于自动摘要的文本分类方法、系统及计算机存储介质。

技术介绍

[0002]文献标引是建立文献数据仓库的关键步骤,标引质量的优劣会直接影响后续的计算机检索效率。目前,每个文献库都有专职从事标引工作的标引人员,也即一般需要大量人员进行人工标引。但是,由于人工标引所存在的效率低,易出错的问题,目前的发展趋势是人工标引慢慢的向机器自动标引过渡。然而,现有技术中目前尚未有能够良好平衡准确与高效的文本分类技术。
[0003]因此,现有技术存在的上述问题亟待改进。

技术实现思路

[0004]为了解决上述人工标引速度慢、易出错的技术问题,本申请提供了一种基于自动摘要的文本分类方法、系统及计算机存储介质。
[0005]本申请的第一方面提供了一种基于自动摘要的文本分类方法,所述方法包括:
[0006]S1、处理器接收需要进行标引的电子文档数据;
[0007]S2、所述处理器对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;
[0008]S3、基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
[0009]S4、标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
[0010]优选地,所述步骤S2中的调动自动摘要生成算法生成对应的摘要,包括:
[0011]S21、提取单篇电子文档数据的所有词语并进行统计分析;
[0012]S22、根据词语的词频分布信息获取关键词集合,使用所述电子文档所属领域特征词词典和标题确定文本关键词的权重;
[0013]S23、计算文本中所有句子的初始权重,使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化;
[0014]S24、根据句子的最终权重进行排序,筛选出权重较高的关键句集合,按原文的顺序输出摘要。
[0015]优选地,所述步骤S22,包括:遍历抽取的文本关键词集合,如果当前词存在于所述电子文档所属领域特征词词典中,则增加该关键词的权重;否则,就不增加该关键词的权重;
[0016]对标题进行切分,得到标题词集合,遍历抽取的文本关键词集合,如果当前词存在于标题词集合中,则增加该关键词的权重,否则,就不增加该关键词的权重。
[0017]优选地,步骤S23中对文本关键词权重进行优化的计算公式为:
[0018]P(W)=F(W)*log(S/S
f
)*C(W)*T(W)
[0019]其中C(W)是所述电子文档所属领域特征词词典的优化因子,T(W)是标题的优化因子。
[0020]所述文本中所有句子的初始权重的计算方式为:
[0021]P
S
(S
j
)=∑P
W
(W
ji
)/L(S
j
)
[0022]其中P
S
(S
j
)为句子S
j
的权重,∑P
W
(W
ji
)为句子S
j
中关键词的权重之和,L(S
j
)是句子S
j
中包含的词条的个数。
[0023]优选地,步骤S23中,所述使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化,包括:对文本中的初始关键句子进行扫描,如果当前句子中包含新词,则给出现的新词赋予一定的权重,并将这些权重之和加到该句的权重中;对文本中首段末段所有句子,每段的段首句和段尾句进行加权。
[0024]优选地,对所述句子的权重进行优化的计算公式为:
[0025]P
S
(S
j
)=∑P
W
(W
ji
)/L(S
j
)*N(S
j
)*T(S
j
)
[0026]其中N(S
j
)表示所述电子文档所属领域新词词典的对加权因子,T(S
j
)表示篇章结构的加权因子。
[0027]优选地,所述步骤S4中标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类,包括:计算各目标标引词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号。
[0028]本申请的第二方面提供了一种基于自动摘要的文本分类系统,所述系统包括接收模块、处理器和标引模块:
[0029]所述接收模块,用于接收需要进行标引的电子文档数据,并传输给处理器;
[0030]所述处理器,用于接收所述接收模块传输的电子文档数据,对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
[0031]所述标引模块,用于基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
[0032]本申请的第三方面提供了一种基于自动摘要的文本分类设备,其特征在于,所述设备包括:
[0033]存储有可执行程序代码的存储器;
[0034]与所述存储器耦合的处理器;
[0035]所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前述所述的文本分类方法。
[0036]本申请的第四方面提供了一种基于自动摘要的存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如前述所述的文本分类方法。
[0037]本专利技术的有益效果在于:
[0038]本申请设计了自动摘要生成算法来实现电子文档核心思想(即文档摘要)的快速获取,并利用获取的摘要中的关键词来实现对该篇电子文档的准确标引分类,从而有效解决了人工标引所存在的效率低、易出错的问题,极大的提高了数据标引的效率。另外,本申
请设计的自动摘要生成算法,在传统的概率统计方法的基础上充分考虑了领域内的知识,将领域词典运用到摘要算法当中,显著提高了自动摘要生成的效率及准确度。于是,本申请的数据标引方法能够实现数据自动标引的准确与高效的良好平衡。
附图说明
[0039]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0040]图1是本申请实施例公开的一种基于自动摘要的文本分类方法的流程示意图;
[0041]图2是本申请实施例公开的一种基于自动摘要的文本分类系统的结构示意图;
[0042]图3是本申请实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自动摘要的文本分类方法,应用于电子设备,其特征在于:所述方法包括:S1、处理器接收需要进行标引的电子文档数据;S2、所述处理器对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;S3、基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;S4、标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。2.根据权利要求1所述的方法,其特征在于:所述步骤S2中的调动自动摘要生成算法生成对应的摘要,包括:S21、提取单篇电子文档数据的所有词语并进行统计分析;S22、根据词语的词频分布信息获取关键词集合,使用所述电子文档所属领域特征词词典和标题确定文本关键词的权重;S23、计算文本中所有句子的初始权重,使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化;S24、根据句子的最终权重进行排序,筛选出权重较高的关键句集合,按原文的顺序输出摘要。3.根据权利要求2所述的方法,其特征在于:所述步骤S22,包括:遍历抽取的文本关键词集合,如果当前词存在于所述电子文档所属领域特征词词典中,则增加该关键词的权重;否则,就不增加该关键词的权重;对标题进行切分,得到标题词集合,遍历抽取的文本关键词集合,如果当前词存在于标题词集合中,那么就增加该关键词的权重,否则,就不增加该关键词的权重。4.根据权利要求2所述的方法,其特征在于:步骤S23中对文本关键词权重进行优化的计算公式为:P(W)=F(W)*log(S/S
f
)*C(W)*T(W)其中C(W)是所述电子文档所属领域特征词词典的优化因子,T(W)是标题的优化因子;所述文本中所有句子的初始权重的计算方式为:P
S
(S
j
)=∑P
W
(W
ji
)/L(S
j
)其中P
S
(S
j
)为句子S
j
的权重,∑P
W
(W
ji
)为句子S
j
中关键词的权重之和,L(S
...

【专利技术属性】
技术研发人员:张凯齐军华周建设刘杰
申请(专利权)人:首都师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1