一种多文档自动摘要系统、方法及储存介质技术方案

技术编号：38411309 阅读：31 留言：0更新日期：2023-08-07 11:17

本发明专利技术公开了一种多文档自动摘要系统、方法及储存介质，涉及自然语言处理技术领域，包括多文档自动摘要系统、文档自动摘要方法以及储存介质，其中多文档自动摘要系统主要包括：文档数据处理模块，文档数据处理模块用于将文档数据处理为基本的文本表示单元；数据噪声去除模块，数据噪声去除模块用于去除文档数据噪声；语言模型；摘要提取模块。本发明专利技术通过在次模函数左值中引入了位置偏置向量来表示句子在源文本中的位置所提供的重要性度量，使得能同时提取具有突出信息的句子及位于重要位置的句子，结果更准确，同时能够使用户直接得到关于同一个主题的多篇文档中最有用并且不重复的信息，从而提高了用户阅读文档的效率。从而提高了用户阅读文档的效率。从而提高了用户阅读文档的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种多文档自动摘要系统、方法及储存介质
[0001]自然语言处理

[0002]本专利技术涉及自然语言处理
，特别是涉及一种多文档自动摘要系统、方法及储存介质。

技术介绍

[0003]近年来，随着互联网技术的高速发展，网络已经成为人们获取信息资讯的一个重要渠道，然而网络信息呈现出内容冗余、数量庞大的特点，导致人们获取重点资讯的效率大打折扣。多文档摘要(Multi
‑
Document Summarization，MDS)技术旨在对主题相同或相近的多篇文档进行分析提炼、整合加工，生成一段能概括中心主题的总结性摘要，能够有效实现同一话题下多篇文档的内容聚合，从而帮助用户快速且清晰地了解文档信息的主要内容。
[0004]目前主流的多文档摘要技术通常利用深度神经网络模型在词汇与文档两个级别上分别进行富语义向量编码，从而捕获文档内部的词汇语义与文档之间的依赖关系，进而利用文档层次信息进行摘要生成。然而，上述方法主要存在以下两个问题：
[0005]一、摘要技术无法快速的从大数据中压缩提炼出精炼简洁的文档...

【技术保护点】

【技术特征摘要】
1.一种多文档自动摘要系统，其特征在于，包括：文档数据处理模块，所述文档数据处理模块用于将文档数据处理为基本的文本表示单元；数据噪声去除模块，所述数据噪声去除模块用于去除文档数据噪声；语言模型，所述语言模型用于向量化文档数据；摘要提取模块，所述摘要提取模块用于在向量化后的文档数据中抽取句子。2.一种多文档自动摘要方法，其特征在于，包括如下步骤：S1、获得文档数据集合，经由所述文档数据处理模块获得所述文档数据集合的基本文本表示单元；S2、将所述文档数据集合被处理而获得的基本文本表示单元输入至所述数据噪声去除模块，由数据噪声去除模块去除所述文档数据集合中的噪声字符；S3、通过所述语言模型将去除数据噪声的文档数据向量化；S4、通过所述摘要提取模块对向量化后的所述文档数据集合进行提取句子。3.根据权利要求2所述的一种多文档自动摘要方法，其特征在于，所述S4中，摘要句子数据提取包括如下步骤：S4
‑
1、通过所述摘要提取模块抽取所述文档数据集合中的摘要句子，并集合为一个摘要句子组，记作S；S4
‑
2、通过所述摘要提取模块计算摘要句子组S与所述文档数据集合中至少一个文本U
i
中每个句子的ROUGE
‑
2值；S4
‑
3、记录所述文本U
i
中与摘要句子组S的ROUGE
‑
2值最高的句子的位置信息，得到长度为文本U
i
句子数量的句子位置向量v
i
；S4
‑
4、对于所述v
i
中元素，当文本U
i
中与摘要句子组S对应位置的句子为ROUGE
‑
2值最高时记作1，其余为0，将所述文档数据集合的所有文本U
i
对应的句子位置向量v
i
划分为n个均等长度的域，将每个域里面的0和1元素进行累加并通过公式计算得到句子向量μ
i
；S4
‑
5、对所述文档数据集合的所有文本对应的μ
i
进行累计并通过公式计算出句子的分布向量μ
d
；S4
‑
6、将所述分布向量μ
d
...

【专利技术属性】
技术研发人员：邓彪，翟飞飞，史桂华，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人