融合关键主题信息的文本摘要生成方法及装置制造方法及图纸

技术编号：37147367 阅读：11 留言：0更新日期：2023-04-06 21:59

本申请提供一种融合关键主题信息的文本摘要生成方法及装置。该方法包括：获取待生成文本摘要的原始文本，利用预设的主题模型抽取原始文本中的关键主题信息；利用注意力机制将关键主题信息与原始文本进行融合，得到融合关键主题信息的上下文向量；将融合关键主题信息的上下文向量与原始文本的上下文向量进行权重融合计算，得到用于构建预设词表的输入特征；基于输入特征对预设词表中每个词对应的输出概率进行计算，依据每个词对应的输出概率选择摘要词，依据摘要词生成文本摘要。本申请能够有效的保留文本的主题信息，提升文本摘要对原文主题的覆盖度和文本摘要的流畅性。原文主题的覆盖度和文本摘要的流畅性。原文主题的覆盖度和文本摘要的流畅性。

全部详细技术资料下载

【技术实现步骤摘要】
融合关键主题信息的文本摘要生成方法及装置

[0001]本申请涉及计算机
，尤其涉及一种融合关键主题信息的文本摘要生成方法及装置。

技术介绍

[0002]自动文本摘要一直是自然语言处理领域的经典和热门话题，近些年从传统的抽取式摘要到生成式的摘要取得了重大进展。
[0003]目前的文本摘要在引入主题信息时，由于将文档中的所有主题都引入到模型中，导致大量噪音引入到文本的信息表示中，使得生成的文本摘要变得冗余，并且没有充分有效的考虑到解码端每个步骤中关键主题信息的需求，无法有效保留原文的主题信息。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种融合关键主题信息的文本摘要生成方法及装置，以解决现有技术存在的大量噪音引入到文本的信息表示中，使文本摘要变得冗余，无法有效保留原文的主题信息的问题。
[0005]本申请实施例的第一方面，提供了一种融合关键主题信息的文本摘要生成方法，包括：获取待生成文本摘要的原始文本，利用预设的主题模型抽取所述原始文本中的关键主题信息；利用注意力机制将所述关键主题信息与所述原始文本进行融合，得到融合关键主题信息的上下文向量；将所述融合关键主题信息的上下文向量与原始文本的上下文向量进行权重融合计算，得到用于构建预设词表的输入特征；基于所述输入特征对预设词表中每个词对应的输出概率进行计算，依据所述每个词对应的输出概率选择摘要词，依据所述摘要词生成文本摘要。
[0006]本申请实施例的第二方面，提供了一种融合关键主题信息的文本摘要生成装置，包括：抽取模...

【技术保护点】

【技术特征摘要】
1.一种融合关键主题信息的文本摘要生成方法，其特征在于，包括：获取待生成文本摘要的原始文本，利用预设的主题模型抽取所述原始文本中的关键主题信息；利用注意力机制将所述关键主题信息与所述原始文本进行融合，得到融合关键主题信息的上下文向量；将所述融合关键主题信息的上下文向量与原始文本的上下文向量进行权重融合计算，得到用于构建预设词表的输入特征；基于所述输入特征对预设词表中每个词对应的输出概率进行计算，依据所述每个词对应的输出概率选择摘要词，依据所述摘要词生成文本摘要。2.根据权利要求1所述的方法，其特征在于，在所述利用预设的主题模型抽取所述原始文本中的关键主题信息之前，所述方法还包括：将所述原始文本的词嵌入序列输入到双向长短期记忆网络中，得到所述原始文本中每个词对应的编码端隐藏层向量。3.根据权利要求1所述的方法，其特征在于，所述利用预设的主题模型抽取所述原始文本中的关键主题信息，包括：利用LDA主题模型获取所述原始文本的主题概率分布和词概率分布，并选择概率最大的主题对应的概率最大的词项作为所述关键主题信息；利用BERT预训练模型对所述关键主题信息进行编码，得到关键主题词向量。4.根据权利要求1所述的方法，其特征在于，所述利用注意力机制将所述关键主题信息与所述原始文本进行融合，得到融合关键主题信息的上下文向量，包括：计算关键主题词向量与所述原始文本中每个词语的点积注意力，利用归一化函数对所述每个词语的点积注意力进行处理，得到所述每个词语的注意力分布；将所述每个词语的注意力分布与所述关键主题词向量进行点积运算，将点积运算的结果与所述原始文本中的词语相加，得到所述融合关键主题信息的上下文向量。5.根据权利要求2所述的方法，其特征在于，在所述将所述融合关键主题信息的上下文向量与原始文本的上下文向量进行权重融合计算之前，所述方法还包括：计算所述编码端隐藏层向量与解码端隐藏层向量的注意力，利用归一化函数对所述注意力进行处理得到注意力分布；将所述注意力分布作为权重对所述编码端隐藏层向量进行加权求和，得到原始文本的上下文向量。6.根据权利要求1所述的方法，其特征在于，所述将所述融合关键主题信息的上下文向量与原始文本的上下文向量进行权重融合计算，得到用于构建预设词表的输入特征，包括：基于所述融合关键主题信息的上下文向量、解码端隐藏层向量、以及解码端的输入进行计算，得到用于表示选择所述融合关键主题信息的上下文向量的概率；依...

【专利技术属性】
技术研发人员：段志丽，郭中华，许鹏，解观海，
申请(专利权)人：北京数字天堂信息科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人