一种文本摘要生成方法、装置、系统以及存储介质制造方法及图纸

技术编号:39304950 阅读:9 留言:0更新日期:2023-11-12 15:54
本发明专利技术提供一种文本摘要生成方法、装置、系统以及存储介质,属于语言处理领域,方法包括:对原始文本数据集进行预处理得到标题单词数据和正文单词数据;通过训练模型对标题单词数据以及所有所述正文单词数据进行关键词分析得到关键词向量、正文单词向量以及隐藏状态数据;对关键词向量、正文单词向量以及隐藏状态数据进行预测单词概率的分析得到文本摘要生成结果。本发明专利技术可以对原文中的重要信息更加关注,可以忽略其他冗余信息,使生成的摘要最大程度上覆盖原文的关键内容,减少了有用信息的损失,充分发挥了文档主题的强语义信息与文档的上下文信息,从而生成质量更好的文本摘要。要。要。

【技术实现步骤摘要】
一种文本摘要生成方法、装置、系统以及存储介质


[0001]本专利技术主要涉及语言处理
,具体涉及一种文本摘要生成方法、装置、系统以及存储介质。

技术介绍

[0002]现有的中文文本摘要生成技术仍存在较多待改进和解决的不足之处,目前,生成中文摘要会面临未登录词(OOV)和生成摘要质量不高的问题,且大多数生成式模型在生成摘要的过程中会忽略主题词信息关键词信息为摘要提供的重要线索,从而导致关键词信息的丢失。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种文本摘要生成方法、装置、系统以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下:一种文本摘要生成方法,包括如下步骤:
[0005]导入原始文本数据集,对所述原始文本数据集进行预处理,得到多个标题单词数据和多个正文单词数据;
[0006]构建训练模型,通过所述训练模型对所有所述标题单词数据以及所有所述正文单词数据进行关键词分析,得到关键词向量、与各个所述正文单词数据对应的正文单词向量以及与各个所述正文单词数据对应的隐藏状态数据;
[0007]对所述关键词向量、所有所述正文单词向量以及所有所述隐藏状态数据进行预测单词概率的分析,得到文本摘要生成结果。
[0008]本专利技术解决上述技术问题的另一技术方案如下:一种文本摘要生成装置,包括:
[0009]导入模块,用于导入原始文本数据集;
[0010]预处理模块,用于对所述原始文本数据集进行预处理,得到多个标题单词数据和多个正文单词数据;
[0011]分析模块,用于构建训练模型,通过所述训练模型对所有所述标题单词数据以及所有所述正文单词数据进行关键词分析,得到关键词向量、与各个所述正文单词数据对应的正文单词向量以及与各个所述正文单词数据对应的隐藏状态数据;
[0012]摘要生成结果获得模块,用于对所述关键词向量、所有所述正文单词向量以及所有所述隐藏状态数据进行预测单词概率的分析,得到文本摘要生成结果。
[0013]基于上述一种文本摘要生成方法,本专利技术还提供一种文本摘要生成系统。
[0014]本专利技术解决上述技术问题的另一技术方案如下:一种文本摘要生成系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本摘要生成方法。
[0015]基于上述一种文本摘要生成方法,本专利技术还提供一种计算机可读存储介质。
[0016]本专利技术解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本摘要生成方法。
[0017]本专利技术的有益效果是:通过对原始文本数据集的预处理得到标题单词数据和正文单词数据,通过训练模型对标题单词数据以及正文单词数据的关键词分析得到关键词向量、正文单词向量以及隐藏状态数据,对关键词向量、正文单词向量以及隐藏状态数据的预测单词概率分析得到文本摘要生成结果,可以对原文中的重要信息更加关注,可以忽略其他冗余信息,使生成的摘要最大程度上覆盖原文的关键内容,减少了有用信息的损失,充分发挥了文档主题的强语义信息与文档的上下文信息,从而生成质量更好的文本摘要。
附图说明
[0018]图1为本专利技术实施例提供的一种文本摘要生成方法的流程示意图;
[0019]图2为本专利技术实施例提供的一种文本摘要生成装置的模块框图。
具体实施方式
[0020]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0021]图1为本专利技术实施例提供的一种文本摘要生成方法的流程示意图。
[0022]如图1所示,一种文本摘要生成方法,包括如下步骤:
[0023]导入原始文本数据集,对所述原始文本数据集进行预处理,得到多个标题单词数据和多个正文单词数据;
[0024]构建训练模型,通过所述训练模型对所有所述标题单词数据以及所有所述正文单词数据进行关键词分析,得到关键词向量、与各个所述正文单词数据对应的正文单词向量以及与各个所述正文单词数据对应的隐藏状态数据;
[0025]对所述关键词向量、所有所述正文单词向量以及所有所述隐藏状态数据进行预测单词概率的分析,得到文本摘要生成结果。
[0026]应理解地,所述原始文本数据集包括标题数据和正文数据。
[0027]上述实施例中,通过对原始文本数据集的预处理得到标题单词数据和正文单词数据,通过训练模型对标题单词数据以及正文单词数据的关键词分析得到关键词向量、正文单词向量以及隐藏状态数据,对关键词向量、正文单词向量以及隐藏状态数据的预测单词概率分析得到文本摘要生成结果,可以对原文中的重要信息更加关注,可以忽略其他冗余信息,使生成的摘要最大程度上覆盖原文的关键内容,减少了有用信息的损失,充分发挥了文档主题的强语义信息与文档的上下文信息,从而生成质量更好的文本摘要。
[0028]可选地,作为本专利技术的一个实施例,所述对所述原始文本数据集进行预处理,得到多个标题单词数据和多个正文单词数据的过程包括:
[0029]利用jieba中文分词库对所述原始文本数据集进行分词处理,得到多个标题单词数据和多个正文单词数据。
[0030]应理解地,所述jieba中文分词库是一个流行的中文分词库,用于将中文文本切分成一个个独立的词语。它是一个开源项目,具有易于使用和高性能的特点,被广泛应用于中
文自然语言处理任务中,总之,jieba是一个强大的中文分词库,提供了简单易用的接口和多种分词模式,能够在中文文本处理中起到重要作用。无论是在信息检索、文本分类、情感分析等任务中,jieba都能为中文文本的分词需求提供可靠的解决方案。
[0031]应理解地,首先对原始数据集进行预处理,利用python功能包jieba(即所述jieba中文分词库)对数据集(即所述原始文本数据集)进行分词,将句子中词与词之间用空格隔开,并建立词典文件。
[0032]上述实施例中,利用jieba中文分词库对原始文本数据集进行分词处理,得到多个标题单词数据和多个正文单词数据,为中文文本的分词需求提供可靠的解决方案,能够在中文文本处理中起到重要作用。
[0033]可选地,作为本专利技术的一个实施例,所述训练模型包括主题提取神经网络、编码器以及解码器,
[0034]所述通过所述训练模型对所有所述标题单词数据以及所有所述正文单词数据进行关键词分析,得到关键词向量、与各个所述正文单词数据对应的正文单词向量以及与各个所述正文单词数据对应的隐藏状态数据的过程包括:
[0035]通过预设BERT模型分别对各个所述标题单词数据以及各个所述正文单词数据进行特征提取,得到与各个所述标题单词数据对应的标题单词向量以及与各个所述正文单词数据对应的正文单词向量;
[0036]通过所述主题提取神经网络分别对各个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,包括如下步骤:导入原始文本数据集,对所述原始文本数据集进行预处理,得到多个标题单词数据和多个正文单词数据;构建训练模型,通过所述训练模型对所有所述标题单词数据以及所有所述正文单词数据进行关键词分析,得到关键词向量、与各个所述正文单词数据对应的正文单词向量以及与各个所述正文单词数据对应的隐藏状态数据;对所述关键词向量、所有所述正文单词向量以及所有所述隐藏状态数据进行预测单词概率的分析,得到文本摘要生成结果。2.根据权利要求1所述的文本摘要生成方法,其特征在于,所述对所述原始文本数据集进行预处理,得到多个标题单词数据和多个正文单词数据的过程包括:利用jieba中文分词库对所述原始文本数据集进行分词处理,得到多个标题单词数据和多个正文单词数据。3.根据权利要求1所述的文本摘要生成方法,其特征在于,所述训练模型包括主题提取神经网络、编码器以及解码器,所述通过所述训练模型对所有所述标题单词数据以及所有所述正文单词数据进行关键词分析,得到关键词向量、与各个所述正文单词数据对应的正文单词向量以及与各个所述正文单词数据对应的隐藏状态数据的过程包括:通过预设BERT模型分别对各个所述标题单词数据以及各个所述正文单词数据进行特征提取,得到与各个所述标题单词数据对应的标题单词向量以及与各个所述正文单词数据对应的正文单词向量;通过所述主题提取神经网络分别对各个所述正文单词向量进行主题分析,得到与各个所述正文单词数据对应的主题混合向量以及与各个所述正文单词数据对应的隐藏状态数据;通过所述编码器分别对各个所述标题单词向量以及所有所述正文单词向量进行编码分析,得到与各个所述正文单词数据对应的目标上下文向量;通过所述解码器分别对各个所述主题混合向量以及与各个所述正文单词数据对应的目标上下文向量进行解码,得到与各个所述正文单词数据对应的关键词生成概率;筛选所有所述关键词生成概率的最大值,筛选后得到最大关键词生成概率,并将所述最大关键词生成概率对应的正文单词向量作为关键词向量。4.根据权利要求3所述的文本摘要生成方法,其特征在于,所述主题提取神经网络包括神经主题网络和BoW解码器,所述通过所述主题提取神经网络分别对各个所述正文单词向量进行主题分析,得到与各个所述正文单词数据对应的主题混合向量以及与各个所述正文单词数据对应的隐藏状态数据的过程包括:通过所述神经主题网络分别对各个所述正文单词向量进行特征提取,得到与各个所述正文单词数据对应的第一先验变量以及与各个所述正文单词数据对应的第二先验变量;通过所述BoW解码器分别对各个所述第一先验变量以及与各个所述正文单词数据对应的第二先验变量进行解码,得到与各个所述正文单词数据对应的高斯向量、与各个所述正文单词数据对应的编码器隐藏状态以及与各个所述正文单词数据对应的解码器隐藏状态,
所述隐藏状态数据包括所述编码器隐藏状态和所述解码器隐藏状态;通过第一式分别对各个所述高斯向量进行归一化处理,得到与各个所述正文单词数据对应的主题混合向量,所述第一式为:其中,θ
i
为第i个正文单词数据对应的主题混合向量,W
θ
为可学习的参数,Z
i
为第i个正文单词数据对应的高斯向量,softmax()为softmax函数。5.根据权利要求3所述的文本摘要生成方法,其特征在于,所述编码器包括序列编码层、匹配层和合并层,所述通过所述编码器分别对各个所述标题单词向量以及所有所述正文单词向量进行编码分析,得到与各个所述正文单词数据对应的目标上下文向量的过程包括:通过预设矢量表分别对各个所述标题单词向量以及各个所述正文单词向量进行映射处理,得到与各个所述标题单词数据对应的标题密集矢量以及与各个所述正文单词数据对应的正文密集矢量;通过所述序列编码层分别对各个所述标题密集矢量进行编码,得到与各个所述标题单词数据对应的初始标题上下文向量,具体为:通过第二式分别对各个所述标题密集矢量进行编码,得到与各个所述标题单词数据对应的初始标题上下文向量,所述第二式为:其中,其中,v
j
为第j个标题单词数据对应的初始标题上下文向量,为第j个标题单词数据对应的标题第一隐藏向量,v
j
为第j个标题单词数据对应的标题第二隐藏向量,j∈[1,L],L为标题单词数据总数,GRU()为双向门递归单元,t
j
为第j个标题单词数据对应的标题密集矢量,为第j

1个标题单词数据对应的标题第一隐藏向量,为第j+1个标题单词数据对应的标题第二隐藏向量;通过所述序列编码层分别对各个所述正文密集矢量进行编码,得到与各个所述正文单词数据对应的初始正文上下文向量,具体为:通过第三式分别对各个所述正文密集矢量进行编码,得到与各个所述正文单词数据对应的初始正文上下文向量,所述第三式为:其中,其中,u
i
为第i个正文单词数据对应的初始正文上下文向量,为第i个正文单词数据对应的正文第一隐藏向量,为第i个正文单词数据对应的正文第二隐藏向量,i∈[1,N],N为正文单词数据总数,GRU()为双向门递归单元,x
i
为第i个正文单词数据对应的正文密集矢量,为第i

1个正文单词数据对应的正文第一隐藏向量,为第i+1个正文单词数据对应的正文第二隐藏向量;通过所述匹配层分别对各个所述初始正文上下文向量以及所有所述初始标题上下文
向量进行匹配,得到与各个所述正文单词数据对应的聚合信息向量,具体为:通过第四式分别对各个所述初始正文上下文向量以及所有所述初始标题上下文向量进行匹配,得到与各个所述正文单词数据对应的聚合信息向量,所述第四式为:其中,其中,c
i
为第i个正文单词数据对应的聚合信息向量,α
i,j
为第i个正文单词数据对应的初始正文上下文向量与第j个标题单词数据对应的初始标题上下文向量间的标准化注意力,v
j
为第j个标题单词数据对应的初始标题上下文向量,L为标题单词数据总数,u
i
为第i个正文单词数据对应的初始正文上下文向量,N为正文单词数据总数,W为可学习的参数;通过所述合并层分别对各个所述初始正文上下文向量以及与各个所述正文单词数据对应的聚合信息向量进行合并,得到与各个所述正文单词数据对应的目标上下文向量,具体为:通过第五式分别对各个所述初始正文上下文向量以及与各个所述正文单词数据对应的聚合信息向量进行合并,得到与各个所述正文单词数据对应的目标上下文向量,所述第五式为:其中,其中,为第i个正文单词数据对应的目标上下文向量,α为超参数,为第i个正文单词数据对应的目标上下文第一隐藏向量,为第i个正文单词数据对应的目标...

【专利技术属性】
技术研发人员:杜兴科欧阳宁
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1