一种文本摘要生成方法、装置、系统以及存储介质制造方法及图纸

技术编号：39304950 阅读：9 留言：0更新日期：2023-11-12 15:54

本发明专利技术提供一种文本摘要生成方法、装置、系统以及存储介质，属于语言处理领域，方法包括：对原始文本数据集进行预处理得到标题单词数据和正文单词数据；通过训练模型对标题单词数据以及所有所述正文单词数据进行关键词分析得到关键词向量、正文单词向量以及隐藏状态数据；对关键词向量、正文单词向量以及隐藏状态数据进行预测单词概率的分析得到文本摘要生成结果。本发明专利技术可以对原文中的重要信息更加关注，可以忽略其他冗余信息，使生成的摘要最大程度上覆盖原文的关键内容，减少了有用信息的损失，充分发挥了文档主题的强语义信息与文档的上下文信息，从而生成质量更好的文本摘要。要。要。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本摘要生成方法、装置、系统以及存储介质

[0001]本专利技术主要涉及语言处理
，具体涉及一种文本摘要生成方法、装置、系统以及存储介质。

技术介绍

[0002]现有的中文文本摘要生成技术仍存在较多待改进和解决的不足之处，目前，生成中文摘要会面临未登录词(OOV)和生成摘要质量不高的问题，且大多数生成式模型在生成摘要的过程中会忽略主题词信息关键词信息为摘要提供的重要线索,从而导致关键词信息的丢失。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的不足，提供一种文本摘要生成方法、装置、系统以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下：一种文本摘要生成方法，包括如下步骤：
[0005]导入原始文本数据集，对所述原始文本数据集进行预处理，得到多个标题单词数据和多个正文单词数据；
[0006]构建训练模型，通过所述训练模型对所有所述标题单词数据以及所有所述正文单词数据进行关键词分析，得到关键词向量、与各个所述正文单词数据对应的正文单词向量以及与各个所述正文单词数据对应的隐藏状态数据；
[0007]对所述关键词向量、所有所述正文单词向量以及所有所述隐藏状态数据进行预测单词概率的分析，得到文本摘要生成结果。
[0008]本专利技术解决上述技术问题的另一技术方案如下：一种文本摘要生成装置，包括：
[0009]导入模块，用于导入原始文本数据集；
[0010]预处理模块，用于对所述原始文本数据集进行预处理，得...

【技术保护点】

【技术特征摘要】
1.一种文本摘要生成方法，其特征在于，包括如下步骤：导入原始文本数据集，对所述原始文本数据集进行预处理，得到多个标题单词数据和多个正文单词数据；构建训练模型，通过所述训练模型对所有所述标题单词数据以及所有所述正文单词数据进行关键词分析，得到关键词向量、与各个所述正文单词数据对应的正文单词向量以及与各个所述正文单词数据对应的隐藏状态数据；对所述关键词向量、所有所述正文单词向量以及所有所述隐藏状态数据进行预测单词概率的分析，得到文本摘要生成结果。2.根据权利要求1所述的文本摘要生成方法，其特征在于，所述对所述原始文本数据集进行预处理，得到多个标题单词数据和多个正文单词数据的过程包括：利用jieba中文分词库对所述原始文本数据集进行分词处理，得到多个标题单词数据和多个正文单词数据。3.根据权利要求1所述的文本摘要生成方法，其特征在于，所述训练模型包括主题提取神经网络、编码器以及解码器，所述通过所述训练模型对所有所述标题单词数据以及所有所述正文单词数据进行关键词分析，得到关键词向量、与各个所述正文单词数据对应的正文单词向量以及与各个所述正文单词数据对应的隐藏状态数据的过程包括：通过预设BERT模型分别对各个所述标题单词数据以及各个所述正文单词数据进行特征提取，得到与各个所述标题单词数据对应的标题单词向量以及与各个所述正文单词数据对应的正文单词向量；通过所述主题提取神经网络分别对各个所述正文单词向量进行主题分析，得到与各个所述正文单词数据对应的主题混合向量以及与各个所述正文单词数据对应的隐藏状态数据；通过所述编码器分别对各个所述标题单词向量以及所有所述正文单词向量进行编码分析，得到与各个所述正文单词数据对应的目标上下文向量；通过所述解码器分别对各个所述主题混合向量以及与各个所述正文单词数据对应的目标上下文向量进行解码，得到与各个所述正文单词数据对应的关键词生成概率；筛选所有所述关键词生成概率的最大值，筛选后得到最大关键词生成概率，并将所述最大关键词生成概率对应的正文单词向量作为关键词向量。4.根据权利要求3所述的文本摘要生成方法，其特征在于，所述主题提取神经网络包括神经主题网络和BoW解码器，所述通过所述主题提取神经网络分别对各个所述正文单词向量进行主题分析，得到与各个所述正文单词数据对应的主题混合向量以及与各个所述正文单词数据对应的隐藏状态数据的过程包括：通过所述神经主题网络分别对各个所述正文单词向量进行特征提取，得到与各个所述正文单词数据对应的第一先验变量以及与各个所述正文单词数据对应的第二先验变量；通过所述BoW解码器分别对各个所述第一先验变量以及与各个所述正文单词数据对应的第二先验变量进行解码，得到与各个所述正文单词数据对应的高斯向量、与各个所述正文单词数据对应的编码器隐藏状态以及与各个所述正文单词数据对应的解码器隐藏状态，
所述隐藏状态数据包括所述编码器隐藏状态和所述解码器隐藏状态；通过第一式分别对各个所述高斯向量进行归一化处理，得到与各个所述正文单词数据对应的主题混合向量，所述第一式为：其中，θ
i
为第i个正文单词数据对应的主题混合向量，W
θ
为可学习的参数，Z
i
为第i个正文单词数据对应的高斯向量，softmax()为softmax函数。5.根据权利要求3所述的文本摘要生成方法，其特征在于，所述编码器包括序列编码层、匹配层和合并层，所述通过所述编码器分别对各个所述标题单词向量以及所有所述正文单词向量进行编码分析，得到与各个所述正文单词数据对应的目标上下文向量的过程包括：通过预设矢量表分别对各个所述标题单词向量以及各个所述正文单词向量进行映射处理，得到与各个所述标题单词数据对应的标题密集矢量以及与各个所述正文单词数据对应的正文密集矢量；通过所述序列编码层分别对各个所述标题密集矢量进行编码，得到与各个所述标题单词数据对应的初始标题上下文向量，具体为：通过第二式分别对各个所述标题密集矢量进行编码，得到与各个所述标题单词数据对应的初始标题上下文向量，所述第二式为：其中，其中，v
j
为第j个标题单词数据对应的初始标题上下文向量，为第j个标题单词数据对应的标题第一隐藏向量，v
j
为第j个标题单词数据对应的标题第二隐藏向量，j∈[1,L]，L为标题单词数据总数，GRU()为双向门递归单元，t
j
为第j个标题单词数据对应的标题密集矢量，为第j
‑
1个标题单词数据对应的标题第一隐藏向量，为第j+1个标题单词数据对应的标题第二隐藏向量；通过所述序列编码层分别对各个所述正文密集矢量进行编码，得到与各个所述正文单词数据对应的初始正文上下文向量，具体为：通过第三式分别对各个所述正文密集矢量进行编码，得到与各个所述正文单词数据对应的初始正文上下文向量，所述第三式为：其中，其中，u
i
为第i个正文单词数据对应的初始正文上下文向量，为第i个正文单词数据对应的正文第一隐藏向量，为第i个正文单词数据对应的正文第二隐藏向量，i∈[1,N]，N为正文单词数据总数，GRU()为双向门递归单元，x
i
为第i个正文单词数据对应的正文密集矢量，为第i
‑
1个正文单词数据对应的正文第一隐藏向量，为第i+1个正文单词数据对应的正文第二隐藏向量；通过所述匹配层分别对各个所述初始正文上下文向量以及所有所述初始标题上下文
向量进行匹配，得到与各个所述正文单词数据对应的聚合信息向量，具体为：通过第四式分别对各个所述初始正文上下文向量以及所有所述初始标题上下文向量进行匹配，得到与各个所述正文单词数据对应的聚合信息向量，所述第四式为：其中，其中，c
i
为第i个正文单词数据对应的聚合信息向量，α
i,j
为第i个正文单词数据对应的初始正文上下文向量与第j个标题单词数据对应的初始标题上下文向量间的标准化注意力，v
j
为第j个标题单词数据对应的初始标题上下文向量，L为标题单词数据总数，u
i
为第i个正文单词数据对应的初始正文上下文向量，N为正文单词数据总数，W为可学习的参数；通过所述合并层分别对各个所述初始正文上下文向量以及与各个所述正文单词数据对应的聚合信息向量进行合并，得到与各个所述正文单词数据对应的目标上下文向量，具体为：通过第五式分别对各个所述初始正文上下文向量以及与各个所述正文单词数据对应的聚合信息向量进行合并，得到与各个所述正文单词数据对应的目标上下文向量，所述第五式为：其中，其中，为第i个正文单词数据对应的目标上下文向量，α为超参数，为第i个正文单词数据对应的目标上下文第一隐藏向量，为第i个正文单词数据对应的目标...

【专利技术属性】
技术研发人员：杜兴科，欧阳宁，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人