一种基于XLNet的文本摘要自动生成方法技术

技术编号:23932920 阅读:54 留言:0更新日期:2020-04-25 02:06
本发明专利技术公开了一种基于XLNet的文本摘要自动生成方法,主要解决文本摘要自动生成过程中,句子流畅性和准确性不高的问题。其实现过程是:获取成对的文本、摘要数据,构建训练集;构建一个包含所有常见词汇和字符的词典;用预训练的XLNet作为编码器,Transformer‑XL作为解码器搭建主干网络;将训练集中的文本数据进行分词并编码为向量,得到网络输入,微调网络;将测试文本分词、编码后送入训练好的网络N中,得到摘要结果。本发明专利技术生成的摘要的具有较好的准确性和语言流畅性,具有一定的实用价值。

An automatic generation method of text summarization based on xlnet

【技术实现步骤摘要】
一种基于XLNet的文本摘要自动生成方法
本专利技术属于文本处理
,具体涉及一种基于XLNet的文本摘要自动生成方法。
技术介绍
随着计算机信息技术的飞速发展,互联网上的文本信息正以指数级的速度爆炸式增长。在这个效率至上的社会,如何从这巨大的信息海洋中获得快速获取我们所需要的信息变得至关重要。因此,近年来自动文本摘要逐渐成了自然语言处理领域的研究热点,该技术旨在利用计算机自动地提取文本重要信息、压缩文章内容从而提高用户获取信息的效率,在新闻网站、搜索引擎、业务分析、市场评估等许多领域都有非常大应用前景。自动摘要生成的方法主要可分为两种:抽取式和生成式。前者通过提取文档中存在的关键词或关键句生成摘要,后者挖掘文本的抽象语义表示,并使用自然语言生成方法来生成。目前,抽取式已经比较成熟,但是抽取质量及内容的流畅度却差强人意。伴随着深度学习的研究,生成式摘要的质量和流畅度都有很大的提升。Seq2Seq是当前使用最广泛的生成式模型,它包含编码器、注意力模块、解码器三个主要子模块。其中编码器往往由数层的RNN(RecurrentNeuralNetwork)组成,负责把原文编码为一个向量;解码器负责从这个向量中提取信息,获取语义并生成文本摘要。但是由于长距离依赖问题的存在,基于RNN的生成式模型往往很难处理长文本摘要。另外,RNN的递归机制使得它无法并行计算,从而限制了生成摘要的速度。2017年6月,Google团队提出了一种完全基于注意力机制的网络模块Transformer,它可以学习文本中长距离依赖关系和全局特性。次年完全基于Transformer构建的Bert(BidirectionalEncoderRepresentationsfromTransformers)横空出世,横扫各大排行榜,并引领一股预训练加微调的迁移学习热潮。但是Transformer仍然不够完美,在语言建模中仍然受到固定长度上下文的限制。针对此问题,Dai等人引入了段间循环机制,并将绝对位置编码改为相对位置编码,提出了Transformer-XL。实验表明,Transformer-XL可以学习到比RNN多80%,比Transformer多450%的距离依赖关系,而且速度更是Transformer的1800多倍。随后,基于Transformer-XL构建的XLNet在各项任务的表现都超越了Bert,成为了目前性能最好的自然语言处理模型。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于XLNet的文本摘要自动生成方法,获取成对的文本、摘要数据,构建训练集;构建一个包含所有常见词汇和字符的词典;用预训练的XLNet作为编码器,Transformer-XL作为解码器搭建主干网络;将训练集中的文本数据进行分词并编码为向量,得到网络输入,微调网络;将测试文本分词、编码后送入训练好的网络N中,得到摘要结果。本专利技术采用以下技术方案:一种基于XLNet的文本摘要自动生成方法,包括以下步骤:S1、获取成对的文本、摘要数据,构建训练集T;S2、构建一个包含所有常见词汇和字符的词典D;S3、用预训练的XLNet作为编码器,Transformer-XL作为解码器构建主干网络N;S4、将训练集T中的文本数据进行分词并编码为向量,得到网络输入ES,微调网络N;S5、将测试文本分词、编码后送入训练好的网络N中,并使用BeamSearch算法,得到最终的摘要结果。具体的,步骤S2中,词典D中每一行为一个词或字符。具体的,步骤S3具体为:S301、搭建编码器网络XLNet,设定网络最大输入长度Lin为512,并使用公开的预训练权重初始化XLNet;S302、用4层的Transformer-XL模块作为解码器,设定Transformer-XL的最大输出长度Lout为512。具体的,步骤S4具体为:S401、将训练集文本S分词处理得到词组S1、S2...Sm,Si表示输入文本的第i个词,m表示S的长度;S402、根据词组中每个词Si在词典D中的行数得到字符编码并拼接在一起得到字符编码然后按照Transformer-XL的处理方式分别得到句子编码向量和相对位置编码向量最后通过求和得到最终的输入向量ES;S403、将ES输入网络,并使用交叉熵损失函数训练网络,微调网络参数。进一步的,步骤S401中,若m小于网络最大输入长度Lin,则使用特殊字符#填补至最大长度;若m大于最大输入长度Lin,则截去多余的词。更进一步的,步骤S402中,最终的输入向量ES为:更进一步的,句子编码向量为:相对位置编码向量为:字符编码为:与现有技术相比,本专利技术至少具有以下有益效果:本专利技术一种基于XLNet的文本摘要自动生成方法,利用XLNet作为编码器,相比RNN和Bert具有更好的语言表征能力,更易于处理长文本中的长距离依赖问题;通过加载预训练模型,引入了外部语料信息,减少了网络对大数据的依赖;提出的网络结构具有很好的可并行性,并且相比Bert具有更快的前向推导速度。进一步的,以预训练XLNet作为编码器的好处:相比RNN和Bert具有更好的语言表征能力,更易于处理长文本中的长距离依赖问题;通过加载预训练模型,引入了外部语料信息,减少了网络对大数据的依赖。综上所述,本专利技术提出的基于XLNet的自动摘要生成算法能更好的处理长文本,并能生成更为准确、流畅的摘要。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术的总流程图。具体实施方式本专利技术提供了一种基于XLNet的文本摘要自动生成方法,主要解决文本摘要自动生成过程中,句子流畅性和准确性不高的问题。其实现过程是:获取成对的文本、摘要数据,构建训练集;构建一个包含所有常见词汇和字符的词典;用预训练的XLNet作为编码器,Transformer-XL作为解码器搭建主干网络;将训练集中的文本数据进行分词并编码为向量,得到网络输入,微调网络;将测试文本分词、编码后送入训练好的网络N中,得到摘要结果。本专利技术生成的摘要具有较好的准确性和语言流畅性,具有一定的实用价值。实施过程主要包括两个步骤:用成对的文本、摘要数据(大约2W条短新闻和对应摘要)训练网络;然后,使用训练好的模型对新数据进行测试。请参阅图1,本专利技术一种基于XLNet的文本摘要自动生成方法,包括以下步骤:S1、获取成对的文本、摘要数据,构建训练集T;S2、构建一个包含所有常见词汇和字符的词典D,每一行为一个词(或字符);S3、用预训练的XLNet作为编码器,Transformer-XL作为解码器构建主干网络N;S301、搭建编码器网络XLNet,设定网络最大输入长度(最大单词数)Lin为512,并使用公开的预训练权重初始化XLNe本文档来自技高网
...

【技术保护点】
1.一种基于XLNet的文本摘要自动生成方法,其特征在于,包括以下步骤:/nS1、获取成对的文本、摘要数据,构建训练集T;/nS2、构建一个包含所有常见词汇和字符的词典D;/nS3、用预训练的XLNet作为编码器,Transformer-XL作为解码器构建主干网络N;/nS4、将训练集T中的文本数据进行分词并编码为向量,得到网络输入E

【技术特征摘要】
1.一种基于XLNet的文本摘要自动生成方法,其特征在于,包括以下步骤:
S1、获取成对的文本、摘要数据,构建训练集T;
S2、构建一个包含所有常见词汇和字符的词典D;
S3、用预训练的XLNet作为编码器,Transformer-XL作为解码器构建主干网络N;
S4、将训练集T中的文本数据进行分词并编码为向量,得到网络输入ES,微调网络N;
S5、将测试文本分词、编码后送入训练好的网络N中,并使用BeamSearch算法,得到最终的摘要结果。


2.根据权利要求1所述的基于XLNet的文本摘要自动生成方法,其特征在于,步骤S2中,词典D中每一行为一个词或字符。


3.根据权利要求1所述的基于XLNet的文本摘要自动生成方法,其特征在于,步骤S3具体为:
S301、搭建编码器网络XLNet,设定网络最大输入长度Lin为512,并使用公开的预训练权重初始化XLNet;
S302、用4层的Transformer-XL模块作为解码器,设定Transformer-XL的最大输出长度Lout为512。


4.根据权利要求1所述的基于XLNe...

【专利技术属性】
技术研发人员:尚凡华沈雄杰刘红英张怀宇陈孙虎王钟书
申请(专利权)人:西安艾尔洛曼数字科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1