一种可控长度的文本摘要生成系统及方法技术方案

技术编号：21914034 阅读：43 留言：0更新日期：2019-08-21 12:27

本发明专利技术是一种可控长度的文本摘要生成系统及方法：1.将用户提交的源文本和长度控制信息经过预处理之后得到可供文本摘要模型处理的输入数据；2.文本摘要系统在深度学习生成式模型的基础上，结合了复制机制、覆盖率机制、长度控制机制对输入的数据进行处理计算，得到生成摘要的内部表示；3.基于步骤2生成的文本内部表示，进一步将其转化为可控长度的摘要结果，系统将结果呈献给用户并进行可视化呈现。本发明专利技术在深度学习生成式模型的基础上，添加了复制机制、覆盖率机制、长度控制机制，实现了对长文本的摘要生成，可读性和可控性强，测评结果显示本发明专利技术的摘要生成效果相比标准生成式模型有明显的提升。

A Controllable Length Text Summary Generation System and Method

全部详细技术资料下载

【技术实现步骤摘要】
一种可控长度的文本摘要生成系统及方法
本专利技术涉及一种可控长度的文本摘要生成系统及方法，属于自然语言处理

技术介绍
随着近几年文本信息的爆发式增长，人们每天能接触到海量的文本信息，如新闻、博客、报告等。从大量文本信息中提取重要的内容，已成为我们的一个迫切需求，而自动文本摘要则提供了一个高效的解决方案。自动文本摘要技术旨在利用计算机生成更为精炼且保留原文整体含义的的文本，是对原文内容的更精华的提炼，最后输出简洁、流畅、保留关键信息的内容，其有非常多的应用场景，如自动报告生成、新闻标题生成等，它为人类快速获取信息提供了巨大的帮助。自动文本摘要是一件非常有挑战性的工作，早期的一部分工作主要是基于统计学或图排序的算法实现的抽取式的摘要，其通过转述、替换、句子缩写技术生成更加简洁凝练的内容。比起抽取式，生成式更接近人进行摘要的过程。伴随着深度神经网络的兴起，基于神经网络的生成式文本摘要得到快速发展，并取得了不错的成绩，但其效果还有待进一步提升。生成式文本摘要系统大多都是基于序列到序列模型和注意力机制的，二者结合可以胜任大多数自然语言处理领域的相关任务，如机器翻译、对话生成、语音识别、诗词生成等，同时该模型也可以应用到文本摘要领域，但相比其他任务来说，文本摘要难度要大很多，存在额外的多个需要解决的问题：·文本摘要通常处理的文本都是一些新闻、事实描述性的内容，所以其中会存在许多实体名词。但此种实体名词一般出现的频率比较低，所以此种实体容易遇到词表溢出问题，模型既无法识别，又很难将此类实体生成到目标结果中。·由于标准的生成式模型没有对生成重复的问题做优化，而文...

【技术保护点】
1.一种可控长度的文本摘要生成系统，其特征在于：该系统包括数据预处理模块、模型处理和转化模块、摘要生成及可视化模块；所述数据预处理模块，用于将用户输入的数据进行解析和转化，使之成为模型可以识别的内容；所述模型处理和转化模块，是利用模型对转化后的内容进行分析计算，得出摘要的内部表示；所述摘要生成及可视化模块，用于构建摘要结果并进行可视化展现；进一步的，所述的数据预处理模块，包括数据清洗单元，用于对文本数据可能包含的一些无效或不规则字符进行清洗，排除冗余数据；数据分词单元，用于将长文本序列转化为分词后的词列表；数据序列转化单元，用将分词后的词列表转化为可供模型输入的文本编码序列信息；进一步的，所述的模型处理和转化模块，包括复制机制，用于将输入文本序列中低频实体词复制到目标结果中；覆盖率机制，用于将生成结果中的重复字词进行记录，并在模型训练阶段对生成重复的现象进行惩罚；长度控制机制，用于将长度信息融入模型之中，每生成一个词长度信息便随之衰减；进一步的，所述摘要生成及可视化模块，包括摘要结果转化单元及摘要可视化呈现单元。

【技术特征摘要】
1.一种可控长度的文本摘要生成系统，其特征在于：该系统包括数据预处理模块、模型处理和转化模块、摘要生成及可视化模块；所述数据预处理模块，用于将用户输入的数据进行解析和转化，使之成为模型可以识别的内容；所述模型处理和转化模块，是利用模型对转化后的内容进行分析计算，得出摘要的内部表示；所述摘要生成及可视化模块，用于构建摘要结果并进行可视化展现；进一步的，所述的数据预处理模块，包括数据清洗单元，用于对文本数据可能包含的一些无效或不规则字符进行清洗，排除冗余数据；数据分词单元，用于将长文本序列转化为分词后的词列表；数据序列转化单元，用将分词后的词列表转化为可供模型输入的文本编码序列信息；进一步的，所述的模型处理和转化模块，包括复制机制，用于将输入文本序列中低频实体词复制到目标结果中；覆盖率机制，用于将生成结果中的重复字词进行记录，并在模型训练阶段对生成重复的现象进行惩罚；长度控制机制，用于将长度信息融入模型之中，每生成一个词长度信息便随之衰减；进一步的，所述摘要生成及可视化模块，包括摘要结果转化单元及摘要可视化呈现单元。2.一种可控长度的文本摘要生成方法，其特征在于：该方法步骤如下：S1.数据预处理模块，将用户输入的待处理源文本进行文本清洗、分词、序列转化得到文本编码序列信息，另外将用户输入的长度信息转化为内部表征数据，所述的文本编码序列信息和长度信息作为下一步的输入；S2.生成式模型的处理和转化，基于步骤S1处理后的文本序列和长度信息，建立生成式模型，通过结合复制机制、覆盖率机制、长度控制机制对输入数据进行计算处理，最终得到生成的摘要结果的内部表示；S3.摘要生成和可视化呈现，基于步骤S2生成的摘要结果的内部表示，系统将其处理转化，形成可读的文本摘要结果，并将结果进行可...

【专利技术属性】
技术研发人员：李舟军，刘俊杰，肖武魁，崔庆才，
申请(专利权)人：深圳智能思创科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人