一种基于XLNet的自动摘要方法与装置制造方法及图纸

技术编号:25637842 阅读:37 留言:0更新日期:2020-09-15 21:30
本发明专利技术公开了一种基于XLNet的自动摘要方法与装置。本发明专利技术首先进行数据预处理,将文本按句切分,将句子按词进行切分,在每个句子前增添显示的用于明确句子界限的占位符。然后构建摘要模型XLNetSum,该模型在XLNet基础上增加全局位置编码,将占位符对应的动态词向量和全局位置编码作为句子特征;利用训练数据和验证数据对模型进行训练后,通过训练好的模型得到测试数据中各个句子的评分,再通过后处理步骤选取若干句子作为摘要。本发明专利技术的摘要模型利用深度神经语言模型XLNet提取文本信息,挖掘词语和上下文句法结构的语义,且可以处理长度不定的文本序列,能够灵活准确地判断文本中各个句子的重要性,进而抽取出文本的摘要语句。

【技术实现步骤摘要】
一种基于XLNet的自动摘要方法与装置
本专利技术属于信息处理
,具体涉及一种基于XLNet模型的自动摘要方法与装置。主要利用神经语言模型XLNet提取文本的语义信息,克服了传统方法对词语语义、句法结构信息提取不足的问题,且对输入文本的序列长度不做限制,能够灵活准确地从文本中提取摘要语句。
技术介绍
随着互联网技术尤其是移动互联网技术的不断发展,人们的学习、工作、生活等方方面面都与网络密切相关。网络上的信息为人们带来了便利,但面对数量庞大的网络信息,人们难以从中挑选出对自己最有用的信息,文本自动摘要正是解决这一问题的关键技术之一。针对一篇文本或多篇相似的文本,利用文本摘要技术获取其核心、简明、自然的摘要信息,可以在一定程度上减轻读者搜集、阅读文档的繁重压力;此外,生成的摘要还可以被应用于搜索引擎、推荐系统等领域,使其更精确地获得文档的核心内容,从而提升性能。自动摘要技术要求计算机能够为输入的文档生成一个包含其主要内容的短句,主要分为两种模式:生成式摘要(abstractivesummarization)与抽取式摘要(extractivesummarization)。前者要求计算机在理解原文的基础上,自动地组织词句,生成出一个句子作为摘要;后者则是从原文中选取一些关键的语句作为摘要。相比较而言,生成式摘要不仅需要计算机“理解”文档,还要自己生成语句,受限于自然语言处理技术的发展,生成的摘要往往词不达意,同时包含大量的语法错误,让人难以理解;抽取式摘要的语句均来自原文,语法错误较少,更便于后续的使用。>近年来,已有许多方法被应用到自动摘要领域。早期的研究主要通过统计字词的分布规律,以及人工构造规则等方法来寻找文章的关键句作为摘要。例如通过统计文章所有词语的TFIDF值,结合句子在文章中的位置,句子的长度等信息,计算最终的得分并选取分数最高的句子作为摘要。这样的方法虽然形式简洁,易于理解,却忽略了词句自身的语义信息,往往要人工构造大量规则,费时费力且效果不佳。随着深度学习的发展,通过多层人工神经网络提取语义信息的方法被广泛应用于自然语言处理领域。词嵌入技术通过在海量开放语料中的训练,得到词语的语义信息;循环神经网络(RecurrentNeuralNetwork,RNN)与Transformer结构则被设计并用于理解词语序列构成的句子与篇章。将这两种方法结合,并辅以特殊的训练方法,可以得到能为文章中的每一个单词分别生成上下文相关词向量的神经语言模型(NeuralLanguageModel,NLM),其中广为人知的模型包括BERT、XLNet等。其中XLNet采用计算得到词语的相对位置编码,理论上支持无限长的文档序列建模,但其未考虑句子在文档中的位置信息,可能对文档摘要任务带来不利影响。
技术实现思路
专利技术目的:本专利技术目的在于提出一种基于XLNet的自动摘要方法与装置,利用神经语言模型XLNet提取文本的语义信息,并引入绝对位置编码,克服传统方法对词语语义、句法结构信息提取不足的问题,且对输入文本的序列长度不做限制,能够灵活准确地从文本中提取摘要语句。技术方案:为实现上述专利技术目的,本专利技术所述的一种基于XLNet的自动摘要方法,首先对文本文档进行预处理,按句切分,并将每句话按XLNet词表切分为词语序列。接着构建XLNetSum模型,并基于随机梯度下降算法在有标签的训练集数据上进行训练,并利用验证集评价模型是否训练完成。最后用训练好的模型对测试集文本的句子进行预测评分,并通过后处理得到各个文本的摘要。具体包括如下步骤:(1)将文本按句进行切分,将句子按词进行切分,在每个句子前增添显示的用于明确句子界限的占位符;每个单独的句子将作为模型中的最小评分单元,以及摘要的最小组成单元;(2)构建基于XLNet模型的XLNetSum模型,包括输入层、多层Transformer-XL、全局位置编码信息层和输出层;其中输入层将输入的词语序列转化为词嵌入向量与句序号;多层Transformer-XL用于从输入的词嵌入向量与句序号中获取文本的语义信息,为文本中的每一个词语生成上下文相关的动态词向量;全局位置编码信息层用于利用三角函数的周期性给出位置信息,并将每个句子中用于明确句子界限的占位符对应的动态词向量和全局位置编码拼接作为句子的特征向量;输出层将句子的特征向量转化为归一化的输出,表示对应的句子属于摘要内容的概率;(3)将经步骤(1)处理后的训练集文本输入XLNetSum模型,得到模型对文本中各个句子的评分,通过损失函数计算当前模型在训练集上的误差,并利用随机梯度下降算法进行反向传播,更新XLNetSum模型的参数;通过验证集上的损失判断模型训练是否完成,并选取验证集损失最低的模型作为输出模型;(4)将经由步骤(1)处理后的测试集文本输入训练完成的XLNetSum模型,得到文本中句子的评分,基于评分进行后处理,选择最为重要的若干句子作为摘要。作为优选,所述步骤(1)中将句子切分为词序列时,首先统计模型词表中的所有词语,并为其构建前缀树;将每一个句子从首个字符开始,与前缀树进行最大长度匹配,通过贪心算法将句子切分为词语序列,作为模型的输入。作为优选,所述步骤(2)中全局位置编码信息的计算方式为:其中pos∈[0,L),是词语所处的位置,L是文本序列的总词语数,Q是大于L的常数,M是动态词向量的维度,Upos∈RM,维度与XLNet的动态词向量输出一致,Upos,r是Upos向量的第r项。作为优选,所述步骤(3)中的损失函数基于标准交叉熵设计,计算方法为:其中N为当前样本的语句总数,Labi和Outi分别为第i句话的标签和预测值作为优选,所述步骤(4)中在进行后处理时利用3-gram排除信息冗余的句子,并为每个文本选择最多3个句子作为摘要。基于相同的专利技术构思,本专利技术所述的一种基于XLNet的自动摘要装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于XLNet的自动摘要方法。基于相同的专利技术构思,本专利技术提供一种存储装置,存储有可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于XLNet的自动摘要方法。有益效果:与现有技术相比,本专利技术具体有如下优点:(1)基于神经语言模型XLNet,能够在极大程度上获取文本中词语、句法结构等语义信息,缓解了传统模型语义提取不足的缺点,有效地提高了模型对文本的理解能力。(2)通过易于扩展的相对位置编码技术,XLNetSum模型受文本长度上限影响较小,能够灵活地处理超长文本的输入,为其抽取准确的摘要语句。(3)标准XLNet忽略了语句在文本中的绝对位置信息,也就忽视了总起句、总结句等特殊位置的语句与普通语句的不同。XLNetSum模型引入绝对位置编码技术,缓解了这一问题。附图说明图1为本专利技术实施例中XLNetSum模型的结构图。图2为本本文档来自技高网...

【技术保护点】
1.一种基于XLNet的自动摘要方法,其特征在于,包括如下步骤:/n(1)将文本按句进行切分,将句子按词进行切分,在每个句子前增添显示的用于明确句子界限的占位符;每个单独的句子将作为模型中的最小评分单元,以及摘要的最小组成单元;/n(2)构建基于XLNet模型的XLNetSum模型,包括输入层、多层Transformer-XL、全局位置编码信息层和输出层;其中输入层将输入的词语序列转化为词嵌入向量与句序号;多层Transformer-XL用于从输入的词嵌入向量与句序号中获取文本的语义信息,为文本中的每一个词语生成上下文相关的动态词向量;全局位置编码信息层用于利用三角函数的周期性给出位置信息,并将每个句子中用于明确句子界限的占位符对应的动态词向量和全局位置编码拼接作为句子的特征向量;输出层将句子的特征向量转化为归一化的输出,表示对应的句子属于摘要内容的概率;/n(3)将经步骤(1)处理后的训练集文本输入XLNetSum模型,得到模型对文本中各个句子的评分,通过损失函数计算当前模型在训练集上的误差,并利用随机梯度下降算法进行反向传播,更新XLNetSum模型的参数;通过验证集上的损失判断模型训练是否完成,并选取验证集损失最低的模型作为输出模型;/n(4)将经由步骤(1)处理后的测试集文本输入训练完成的XLNetSum模型,得到文本中句子的评分,基于评分进行后处理,选择最为重要的若干句子作为摘要。/n...

【技术特征摘要】
1.一种基于XLNet的自动摘要方法,其特征在于,包括如下步骤:
(1)将文本按句进行切分,将句子按词进行切分,在每个句子前增添显示的用于明确句子界限的占位符;每个单独的句子将作为模型中的最小评分单元,以及摘要的最小组成单元;
(2)构建基于XLNet模型的XLNetSum模型,包括输入层、多层Transformer-XL、全局位置编码信息层和输出层;其中输入层将输入的词语序列转化为词嵌入向量与句序号;多层Transformer-XL用于从输入的词嵌入向量与句序号中获取文本的语义信息,为文本中的每一个词语生成上下文相关的动态词向量;全局位置编码信息层用于利用三角函数的周期性给出位置信息,并将每个句子中用于明确句子界限的占位符对应的动态词向量和全局位置编码拼接作为句子的特征向量;输出层将句子的特征向量转化为归一化的输出,表示对应的句子属于摘要内容的概率;
(3)将经步骤(1)处理后的训练集文本输入XLNetSum模型,得到模型对文本中各个句子的评分,通过损失函数计算当前模型在训练集上的误差,并利用随机梯度下降算法进行反向传播,更新XLNetSum模型的参数;通过验证集上的损失判断模型训练是否完成,并选取验证集损失最低的模型作为输出模型;
(4)将经由步骤(1)处理后的测试集文本输入训练完成的XLNetSum模型,得到文本中句子的评分,基于评分进行后处理,选择最为重要的若干句子作为摘要。


2.根据权利要求1所述的基于XLNet的自动摘要方法,其特征在于,所述步骤(1)中将句子切分为词序列时,首先统计模型词...

【专利技术属性】
技术研发人员:杨鹏李文翰杨浩然
申请(专利权)人:南京优慧信安科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1