【技术实现步骤摘要】
基于Capsule
‑
BiGRU网络与事件自动分类的多文档摘要提取方法及系统
[0001]本专利技术属于自然语言处理
,具体涉及基于Capsule
‑
BiGRU网络与事件自动分类的多文档摘要提取方法及系统。
技术介绍
[0002]在信息量巨大的当下,针对某一事件或某一话题的描述存在大量冗余重复的文字,对于民众来说,这不利于及时了解事实真相,也可能造成一定程度的舆论发酵;对于分析工作者来说,大量重复信息不利于保证分析结果的时效性。因此将多篇文档及时进行分类并提取摘要可以在最短时间内让相关部门了解到所寻到结果的内容并及时响应处理,以实现已发生事件影响的最小化;同时,针对某些专业领域的文本可能存在专业名词无法识别或被过滤等情况,不利于摘要内容的完整性。
[0003]摘要作为了解文章核心内容的关键部分,应当具有重点突出、信息充沛、将最重要的部分反馈给读者的重要作用。随着自然语言处理技术的快速发展,“文本摘要”作为其中最重要的分支之一,其结果也随着技术水平的升高不断地提升效果。目前,文本摘要主要有生成式摘要与抽取式摘要两种。抽取式文档摘要直接从原文中抽取完整句子组成摘要,以保证摘要的描述真实与语法正确。传统的文本摘要抽取方法如利用Textrank等基于图模型的方法在泛化性和易用性方面均取得了较好的效果;而随着深度学习的不断发展,越来越多的研究人员开始使用基于深度神经网络的方法进行文本摘要的抽取工作。较早的使用深度神经网络的抽取式文本摘要算法,使用基于循环神经网络的模型来进行摘要 ...
【技术保护点】
【技术特征摘要】
1.基于Capsule
‑
BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,包括以下步骤:S1、对当前所有待分类文本提取每篇文档的文本关键词,根据关键词的提取结果完成初步聚类,得到所有文档的初次分类结果;S2、基于步骤S1聚类后得到的所有文档的初次分类结果,对每一聚类结果中的每篇文档利用胶囊网络和双向门控循环单元网络分别提取文本的局部特征和全局特征,得到每篇文档融合全局和局部特征的特征矩阵;S3、根据步骤S2中提取的特征矩阵进行文本相似度融合分析,得到每篇文档的多层次相似度向量;S4、基于步骤S3得到的文本多层次相似度向量对每一大类中每篇文本的相似度进行判定,根据文本相似度判定结果,在初步聚类的基础上进行二次精准聚类;S5、对步骤S4得到的文本精准聚类结果中的每一类文档进行最小支配集计算,融合主题与语义,得到多文档摘要提取结果。2.根据权利要求1所述的基于Capsule
‑
BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,步骤S1中,融合迁移学习领域自适应及条件随机场与双向长短期记忆网络的领域进行文本关键词的提取。3.根据权利要求1所述的基于Capsule
‑
BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,提取每篇文档的文本关键词的具体步骤为:采集特定网络中相关领域的文章及关键词作为目标域数据,待抽取摘要的无监督数据文本集作为源域数据;然后进行词向量编码,通过最小化目标域数据与源域数据之间的相似特征与关键词分类交叉熵,完成文本集的关键词提取任务。4.根据权利要求1所述的一种基于Capsule
‑
BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,步骤S1中,初步聚类的标准为:抽取每篇文档的关键词,每篇文档的关键词数量范围在3到7个,各篇文档之间的关键词的重合度≥0.8则自动聚类。5.根据权利要求1所述的基于Capsule
‑
BiGRU网络与事件自动分类的多文档摘要提取方法,其特征在于,步骤S2中,提取局部特征矩阵的具体步骤为:将词向量矩阵输入胶囊网络进行卷积运算,经过主胶囊层做胶囊卷积运算,经挤压函数运算后作为主胶囊层的输出,经过动态路由协议机制运算后连接到分类胶囊层,分类胶囊层的输出结果展开为文本的局部特征向量。6.根...
【专利技术属性】
技术研发人员:孙鹤立,尚欣,褚旭光,何亮,何晖,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。