当前位置: 首页 > 专利查询>西南电子技术研究所中国电子科技集团公司第十研究所专利>正文

基于动态词向量的自动文本摘要生成方法技术

技术编号：22944507 阅读：21 留言：0更新日期：2019-12-27 17:09

本发明专利技术公开的一种基于动态词向量的自动文本摘要生成方法，旨在提供一种准确性和流畅度更高的文本摘要自动生成方法。本发明专利技术通过下述技术方案予以实现：首先通过文本预处理模块对文本进行预处理，预处理包括分词操作、高频词过滤与词性标注，将处理后的文本生成初始词向量；紧接着将初始词向量输入ELMo模型模块，生成初步动态词向量；同时将文本输入Doc2Vec句向量模块得到每个句子的句向量，句向量输入自注意力机制模块计算出相对摘要结果的重要性权重以生成加权句向量，将加权句向量作为各个词的环境特征向量，环境特征向量与初始动态词向量相加得到最终的动态词向量，动态词向量输入Transformer神经网络模型生成高质量的文本摘要。

全部详细技术资料下载

【技术实现步骤摘要】
基于动态词向量的自动文本摘要生成方法
本专利技术属于自然语言处理
，具体涉及自动生成文本摘要的深度神经网络算法。
技术介绍
随着近年来互联网的飞速发展与广泛普及，信息数据量呈指数级爆发式增长，信息过载问题日益显现。人们每天需要面对并处理海量的文本信息，如何高效地从大量文本信息中获取重要关键内容，文本摘要自动生成已成为迫切的需求。文本摘要充斥着我们生活的方方面面，新闻关键词的提炼是文本摘要，谷歌、百度等搜索引擎的结果优化也要用到文本摘要。文本摘要自动生成是目前提取文本主旨信息的一个较为高效的方法。该方法通过机器自动输出简洁、流畅、保留原文本关键信息的摘要。目前主流的文本摘要自动生成有两种方式，一种是抽取式，另一种是生成式。顾名思义，抽取式摘要是寻找原文中最接近中心思想的几个句子，通过提取文本中已存在的关键词与短语，重新拼接成一小段摘要，而不对原本的内容做创造性的修改。而生成式摘要则运用自然语言处理的算法，在理解整篇文章意思的基础上，通过转述、同义替换、语句缩写等方法，按自己的话生成简明扼要且流畅的翻译。抽取式摘要目前已相对成熟，但抽取质量及内容流畅度均差强人意。近几年来快速发展的深度神经网络因其强大的表征能力，为构建优秀的生成式摘要模型提供了可能性，不少生成式神经网络模型在公开测试集上已经超越了最好的抽取式模型，但目前也受文本长度过长、抽取内容不佳等问题的限制。传统的循环神经网络(RNN)非常适用于文本序列建模，但由于不能并行计算而使得训练非常耗时，同时多步骤的循环递归存在梯度消失、爆炸、语义丢失等长期依...

【技术保护点】
1.一种基于动态词向量的自动文本摘要生成方法，其特征在于包括如下步骤：首先通过文本预处理模块对文本进行预处理，预处理包括分词操作、高频词过滤与词性标注，将处理后的文本生成初始词向量；紧接着将初始词向量输入ELMo模型模块，生成初步动态词向量；同时将文本输入Doc2Vec句向量模块得到每个句子的句向量，紧接着将句向量输入自注意力机制模块，计算出各句子对摘要结果的重要性权重并输出加权句向量，将加权句向量作为各个词的环境特征向量；然后将此环境特征向量与初始动态词向量相加，得到最终的动态词向量，将此动态词向量输入Transformer神经网络模型，生成高质量的文本摘要。/n

【技术特征摘要】
1.一种基于动态词向量的自动文本摘要生成方法，其特征在于包括如下步骤：首先通过文本预处理模块对文本进行预处理，预处理包括分词操作、高频词过滤与词性标注，将处理后的文本生成初始词向量；紧接着将初始词向量输入ELMo模型模块，生成初步动态词向量；同时将文本输入Doc2Vec句向量模块得到每个句子的句向量，紧接着将句向量输入自注意力机制模块，计算出各句子对摘要结果的重要性权重并输出加权句向量，将加权句向量作为各个词的环境特征向量；然后将此环境特征向量与初始动态词向量相加，得到最终的动态词向量，将此动态词向量输入Transformer神经网络模型，生成高质量的文本摘要。

2.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：在文本摘要生成之前的预处理过程中，首先使用结巴分词工具对中文文本进行分词处理，接着过滤掉类似于“的”、“是”、“一个”这类没有太多意义的高频词，然后对分词后的文本以句子为单位进行合并；其次引入语言层的先验知识，标注出每个词的词性，旨在优化自动文摘模型的训练过程，以期减少训练集的数据量和加快模型收敛速度。

3.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：预处理后的初始词向量分别输入到ELMo模型模块的前向和后向语言模型，将前后两个方向的输出拼接得到初始文本的256维动态词向量表达。

4.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：Doc2Vec句向量模块在词向量基础上引入本词当句的句向量，利用LCSTS数据集里的样本句构成训练集，利用Doc2Vec无监督算法来训练输入文本每句的句向量，经过训练后句向量维度为256。

5.如权利要求1所述的基于动态词向量的自动文本摘要生成方法，其特征在于：自注意力机制模块利用自注意力机制计算各句子对摘要结果的重要性权重，其计算公式为

【专利技术属性】
技术研发人员：王侃，曹开臣，刘万里，徐畅，潘袁湘，
申请(专利权)人：西南电子技术研究所中国电子科技集团公司第十研究所，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人