基于Capsule-BiGRU网络与事件自动分类的多文档摘要提取方法及系统技术方案

技术编号:37723885 阅读:14 留言:0更新日期:2023-06-02 00:25
本发明专利技术公开了基于Capsule

【技术实现步骤摘要】
基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法及系统


[0001]本专利技术属于自然语言处理
,具体涉及基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法及系统。

技术介绍

[0002]在信息量巨大的当下,针对某一事件或某一话题的描述存在大量冗余重复的文字,对于民众来说,这不利于及时了解事实真相,也可能造成一定程度的舆论发酵;对于分析工作者来说,大量重复信息不利于保证分析结果的时效性。因此将多篇文档及时进行分类并提取摘要可以在最短时间内让相关部门了解到所寻到结果的内容并及时响应处理,以实现已发生事件影响的最小化;同时,针对某些专业领域的文本可能存在专业名词无法识别或被过滤等情况,不利于摘要内容的完整性。
[0003]摘要作为了解文章核心内容的关键部分,应当具有重点突出、信息充沛、将最重要的部分反馈给读者的重要作用。随着自然语言处理技术的快速发展,“文本摘要”作为其中最重要的分支之一,其结果也随着技术水平的升高不断地提升效果。目前,文本摘要主要有生成式摘要与抽取式摘要两种。抽取式文档摘要直接从原文中抽取完整句子组成摘要,以保证摘要的描述真实与语法正确。传统的文本摘要抽取方法如利用Textrank等基于图模型的方法在泛化性和易用性方面均取得了较好的效果;而随着深度学习的不断发展,越来越多的研究人员开始使用基于深度神经网络的方法进行文本摘要的抽取工作。较早的使用深度神经网络的抽取式文本摘要算法,使用基于循环神经网络的模型来进行摘要抽取,或使用记忆网络来帮助模型更好的理解文章内容。随着Transformer在各个任务中取得了更好的性能,研究人员探索了在抽取式文本摘要任务上使用Transformer并发现它可以提高抽取的摘要质量。如今,预训练模型如Bert逐渐成为研究主流,通过调整下游训练及参数可以更好地完成包括文本摘要提取在内的多项任务。
[0004]多文档摘要是将同一主题或不同主题下的多篇文档内容通过信息的提取与压缩实现摘要的抽取。由于当下媒体数量巨大且社交平台使用人数众多,针对某一话题或某一事件的文本可能存在大量类似甚至重合的内容,这会给审核人员或文字分析工作者带来很多重复性工作,加大他们的任务量,因而需要一种方法实现对多文档摘要的精准聚类,减少审核人员或文字分析工作者的工作量,进一步提升效率。

技术实现思路

[0005]为了克服上述现有技术的缺点,本专利技术的目的在于提供基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法及系统,解决了多文档摘要的提取难以精准聚类的问题。
[0006]为了达到上述目的,本专利技术采用以下技术方案予以实现:
[0007]本专利技术公开了基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法,
包括以下步骤:
[0008]S1、对当前所有待分类文本提取每篇文档的文本关键词,根据关键词的提取结果完成初步聚类,得到所有文档的初次分类结果;
[0009]S2、基于步骤S1聚类后得到的所有文档的初次分类结果,对每一聚类结果中的每篇文档利用胶囊网络和双向门控循环单元网络分别提取文本的局部特征和全局特征,得到每篇文档融合全局和局部特征的特征矩阵;
[0010]S3、根据步骤S2中提取的特征矩阵进行文本相似度融合分析,得到每篇文档的多层次相似度向量;
[0011]S4、基于步骤S3得到的文本多层次相似度向量对每一大类中每篇文本的相似度进行判定,根据文本相似度判定结果,在初步聚类的基础上进行二次精准聚类;
[0012]S5、对步骤S4得到的文本精准聚类结果中的每一类文档进行最小支配集计算,融合主题与语义,得到多文档摘要提取结果。
[0013]优选地,步骤S1中,融合迁移学习领域自适应及条件随机场与双向长短期记忆网络的领域进行文本关键词的提取。
[0014]优选地,提取每篇文档的文本关键词的具体步骤为:采集特定网络中相关领域的文章及关键词作为目标域数据,待抽取摘要的无监督数据文本集作为源域数据;然后进行词向量编码,通过最小化目标域数据与源域数据之间的相似特征与关键词分类交叉熵,完成文本集的关键词提取任务。
[0015]优选地,步骤S1中,初步聚类的标准为:抽取每篇文档的关键词,每篇文档的关键词数量范围在3到7个,各篇文档之间的关键词的重合度≥0.8则自动聚类。
[0016]优选地,步骤S2中,提取局部特征矩阵的具体步骤为:将词向量矩阵输入胶囊网络进行卷积运算,经过主胶囊层做胶囊卷积运算,经挤压函数运算后作为主胶囊层的输出,经过动态路由协议机制运算后连接到分类胶囊层,分类胶囊层的输出结果展开为文本的局部特征向量。
[0017]优选地,步骤S2中,提取全局特征矩阵的具体步骤为:将词向量矩阵输入BiGRU网络中,使用双向的GRU网络从两个方向提取文本的信息,得到文本的全局特征向量。
[0018]优选地,步骤S4中,相似度判定的具体步骤为:将文本各自的局部特征和全局特征分别进行相似度分析,得到相似度矩阵,将相似度矩阵作为全连接网络的输入,全连接网络最后一层通过分类器判断文本是否相似。
[0019]优选地,步骤S4中,相似文档的判定结果未达到相似度阈值≥0.7,进行精准聚类;若达到相似度阈值≥0.7,默认此时初步聚类结果精度已经满足要求,其结果能作为精准聚类结果直接进入步骤S5。
[0020]优选地,步骤S5具体为:将聚类好的文档集以句子为节点通过贝叶斯主题模型、词向量模型得到句子图模型,将句子主题概率分布和句子语义相似度融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重,借助句子图模型最小支配集方法实现多文档摘要提取。
[0021]本专利技术还公开了一种基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取系统,包括:
[0022]关键词提取模块,用于提取每篇文档的文本关键词,根据关键词的提取结果完成
初步聚类;
[0023]矩阵提取模块,用于基于关键词提取模块聚类后得到的所有文档的初次分类结果,利用胶囊网络提取文本的局部特征矩阵,利用双向门控循环单元网络提取文本的全局特征矩阵;
[0024]融合分析模块,用于根据矩阵提取模块提取的局部特征矩阵和全局特征矩阵进行文本相似度融合分析,得到文本的多层次相似度向量;
[0025]判定模块,用于融合分析模块得到的文本多层次相似度向量对文本的相似度进行判定,根据文本相似度判定结果进行精准聚类;
[0026]摘要提取模块,用于对判定模块得到的文本聚类结果中的每一类文档进行最小支配集的计算,融合主题与语义,得到多文档摘要提取结果。
[0027]与现有技术相比,本专利技术具有以下有益效果:
[0028]本专利技术提供的基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法,1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,包括以下步骤:S1、对当前所有待分类文本提取每篇文档的文本关键词,根据关键词的提取结果完成初步聚类,得到所有文档的初次分类结果;S2、基于步骤S1聚类后得到的所有文档的初次分类结果,对每一聚类结果中的每篇文档利用胶囊网络和双向门控循环单元网络分别提取文本的局部特征和全局特征,得到每篇文档融合全局和局部特征的特征矩阵;S3、根据步骤S2中提取的特征矩阵进行文本相似度融合分析,得到每篇文档的多层次相似度向量;S4、基于步骤S3得到的文本多层次相似度向量对每一大类中每篇文本的相似度进行判定,根据文本相似度判定结果,在初步聚类的基础上进行二次精准聚类;S5、对步骤S4得到的文本精准聚类结果中的每一类文档进行最小支配集计算,融合主题与语义,得到多文档摘要提取结果。2.根据权利要求1所述的基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,步骤S1中,融合迁移学习领域自适应及条件随机场与双向长短期记忆网络的领域进行文本关键词的提取。3.根据权利要求1所述的基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,提取每篇文档的文本关键词的具体步骤为:采集特定网络中相关领域的文章及关键词作为目标域数据,待抽取摘要的无监督数据文本集作为源域数据;然后进行词向量编码,通过最小化目标域数据与源域数据之间的相似特征与关键词分类交叉熵,完成文本集的关键词提取任务。4.根据权利要求1所述的一种基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,步骤S1中,初步聚类的标准为:抽取每篇文档的关键词,每篇文档的关键词数量范围在3到7个,各篇文档之间的关键词的重合度≥0.8则自动聚类。5.根据权利要求1所述的基于Capsule

BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,步骤S2中,提取局部特征矩阵的具体步骤为:将词向量矩阵输入胶囊网络进行卷积运算,经过主胶囊层做胶囊卷积运算,经挤压函数运算后作为主胶囊层的输出,经过动态路由协议机制运算后连接到分类胶囊层,分类胶囊层的输出结果展开为文本的局部特征向量。6.根...

【专利技术属性】
技术研发人员:孙鹤立尚欣褚旭光何亮何晖
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1