一种基于XLNet的文本摘要自动生成方法技术

技术编号：23932920 阅读：54 留言：0更新日期：2020-04-25 02:06

本发明专利技术公开了一种基于XLNet的文本摘要自动生成方法，主要解决文本摘要自动生成过程中，句子流畅性和准确性不高的问题。其实现过程是：获取成对的文本、摘要数据，构建训练集；构建一个包含所有常见词汇和字符的词典；用预训练的XLNet作为编码器，Transformer‑XL作为解码器搭建主干网络；将训练集中的文本数据进行分词并编码为向量，得到网络输入，微调网络；将测试文本分词、编码后送入训练好的网络N中，得到摘要结果。本发明专利技术生成的摘要的具有较好的准确性和语言流畅性，具有一定的实用价值。

An automatic generation method of text summarization based on xlnet

全部详细技术资料下载

【技术实现步骤摘要】
一种基于XLNet的文本摘要自动生成方法
本专利技术属于文本处理
，具体涉及一种基于XLNet的文本摘要自动生成方法。
技术介绍
随着计算机信息技术的飞速发展，互联网上的文本信息正以指数级的速度爆炸式增长。在这个效率至上的社会，如何从这巨大的信息海洋中获得快速获取我们所需要的信息变得至关重要。因此，近年来自动文本摘要逐渐成了自然语言处理领域的研究热点，该技术旨在利用计算机自动地提取文本重要信息、压缩文章内容从而提高用户获取信息的效率，在新闻网站、搜索引擎、业务分析、市场评估等许多领域都有非常大应用前景。自动摘要生成的方法主要可分为两种：抽取式和生成式。前者通过提取文档中存在的关键词或关键句生成摘要，后者挖掘文本的抽象语义表示，并使用自然语言生成方法来生成。目前，抽取式已经比较成熟，但是抽取质量及内容的流畅度却差强人意。伴随着深度学习的研究，生成式摘要的质量和流畅度都有很大的提升。Seq2Seq是当前使用最广泛的生成式模型，它包含编码器、注意力模块、解码器三个主要子模块。其中编码器往往由数层的RNN(RecurrentNeuralNetwork)组成，负责把原文编码为一个向量；解码器负责从这个向量中提取信息，获取语义并生成文本摘要。但是由于长距离依赖问题的存在，基于RNN的生成式模型往往很难处理长文本摘要。另外，RNN的递归机制使得它无法并行计算，从而限制了生成摘要的速度。2017年6月，Google团队提出了一种完全基于注意力机制的网络模块Transformer，它可以学习文本中长距离依...

【技术保护点】
1.一种基于XLNet的文本摘要自动生成方法，其特征在于，包括以下步骤：/nS1、获取成对的文本、摘要数据，构建训练集T；/nS2、构建一个包含所有常见词汇和字符的词典D；/nS3、用预训练的XLNet作为编码器，Transformer-XL作为解码器构建主干网络N；/nS4、将训练集T中的文本数据进行分词并编码为向量，得到网络输入E

【技术特征摘要】
1.一种基于XLNet的文本摘要自动生成方法，其特征在于，包括以下步骤：
S1、获取成对的文本、摘要数据，构建训练集T；
S2、构建一个包含所有常见词汇和字符的词典D；
S3、用预训练的XLNet作为编码器，Transformer-XL作为解码器构建主干网络N；
S4、将训练集T中的文本数据进行分词并编码为向量，得到网络输入ES，微调网络N；
S5、将测试文本分词、编码后送入训练好的网络N中，并使用BeamSearch算法，得到最终的摘要结果。

2.根据权利要求1所述的基于XLNet的文本摘要自动生成方法，其特征在于，步骤S2中，词典D中每一行为一个词或字符。

3.根据权利要求1所述的基于XLNet的文本摘要自动生成方法，其特征在于，步骤S3具体为：
S301、搭建编码器网络XLNet，设定网络最大输入长度Lin为512，并使用公开的预训练权重初始化XLNet；
S302、用4层的Transformer-XL模块作为解码器，设定Transformer-XL的最大输出长度Lout为512。

4.根据权利要求1所述的基于XLNe...

【专利技术属性】
技术研发人员：尚凡华，沈雄杰，刘红英，张怀宇，陈孙虎，王钟书，
申请(专利权)人：西安艾尔洛曼数字科技有限公司，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人