基于深度学习的文本摘要获取方法技术

技术编号：32973816 阅读：28 留言：0更新日期：2022-04-09 11:46

本发明专利技术公开了基于深度学习的文本摘要获取方法，本方法首先抽取原文档的关键词；构建Encoder模块提取全局语义信息；构建图卷积模块提取局部语义信息；构建Decoder模块生成文本摘要。文本摘要任务是对海量文本数据的提炼和总结，通过将海量的文本数据压缩成简单、直观的摘要来节约用户浏览文本数据的时间成本。本方法将关键点作为局部特征，原文本作为全局特征，获得丰富的原文本的语义表示；生成高质量摘要的前提是理解原文本语义；利用图卷积更新了特征之间的权重，进一步促进了语义信息的传递，并且抑制了无意义的消息传递，从而获得的原文本的语义信息更能体现原文的中心思想，从而保证生成的摘要能够体现原文本的中心，避免生成无中心思想的摘要。免生成无中心思想的摘要。免生成无中心思想的摘要。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的文本摘要获取方法

[0001]本专利技术属于自然语言处理
，尤其涉及基于深度学习的文本摘要获取方法。

技术介绍

[0002]随着互联网产业的迅速发展，越来越多的人依赖于从互联网平台发布和获取信息，人们日常接触的文本信息呈爆发式增长，通过互联网平台，可以快速访问大量信息，但是由于网络的信息极其庞大、杂乱，人们需要花费更多的时间去筛选文本中的关键信息。因此，从大量文本信息中提取重要的内容，已经成为人们的一个迫切需求。传统的文本摘要主要依赖于人工总结，需要庞大的时间成本和人工成本。与此同时，由于文本信息的爆发式增长，单纯依赖人工来总结文本摘要是不切实际的。因此，自动文本摘要作为一种通过机器自动总结文本摘要的技术，成为目前正在积极研究的一个热门领域。
[0003]自动文本摘要按照输出类型可以分为两类，分别是抽取式文本摘要和生成式文本摘要。抽取式文本摘要通过从原始文本中抽取出重要的片段，并将它们组合形成摘要，不仅可以有效地使内容简洁，便于人们理解，而且实现简单，是目前最主流、应用最多、最容易的方法。但是这种...

【技术保护点】

【技术特征摘要】
1.基于深度学习的文本摘要获取方法，其特征在于：本方法包括以下步骤：步骤1，提取原文本的关键词；通过提取出若干个代表文章语义内容的关键词作为文本的局部信息；提取原文档的关键词，基于无监督的思想提取原文本关键词的步骤如下：步骤1.1考虑词的位置信息，首句和末句出现的词语是关键词的概率高，将文档的首句和末句分别重复3次，从而增加关键词在首句和末句的词频；步骤1.2将文本进行分词，利用每个词的tf
‑
idf统计信息，挑选出20个词语作为候选关键词；步骤1.3将步骤1.2得到的关键词进行进一步筛选：使用Doc2Vec获得文档的向量表示d，使用Word2Vec获得候选关键词的向量表示w；根据w和d的余弦距离对候选关键词进行排序，从初始的候选关键词中挑选出与文档接近的关键短语，关键词与文档越接近，说明信息量越大，从而保证得到的关键词与文档更具有相关性；步骤1.4为避免最终关键词出现冗余，即提取出来的关键词虽然具有不同的表达方式，但具有相同的含义，因而需要对步骤1.3得到的关键词进行二次筛选：根据候选关键词之间的余弦距离进行排序，对于有相同语义的关键词，只保留一个；步骤2，构建Encoder模块；Encoder模块的目的是对输入的文本进行编码，即向量化表示；Encoder模块使用Transformer的编码器模块最终获得具有语义特征、上下文特征的原文本的语义表示，成为全局语义信息；步骤3，构建图卷积模块；在步骤1中得到不同关键词的语义信息，为挖掘更有效的局部语义特征，利用图卷积的方法，将局部特征加入关系特征，从而得到具有关系信息的局部语义信息；在图卷积中，输入包括节点和邻接矩阵，其中节点为步骤1提取出来的局部语义信息，节点之间是有关系的，邻接矩阵表示节点之间的关系程度，然后使用图卷积自适应学习每个关键词之间的关系权重，得到关键词之间的邻接矩阵后，将其和初始的语义信息相乘，得到关系特征，再将关系特征与初始特征融合，得到新的一轮特征；步骤4，构建Decoder模块；Decoder模块的目的是生成原文本的摘要，指针生成器网络是一个带有复制机制的seq2seq模型，根据生成器和指针的概率分布预测单词，其中生成器主要利用encoder模块输...

【专利技术属性】
技术研发人员：张丽，遆敬苗，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人