一种可控长度的文本摘要生成系统及方法技术方案

技术编号:21914034 阅读:43 留言:0更新日期:2019-08-21 12:27
本发明专利技术是一种可控长度的文本摘要生成系统及方法:1.将用户提交的源文本和长度控制信息经过预处理之后得到可供文本摘要模型处理的输入数据;2.文本摘要系统在深度学习生成式模型的基础上,结合了复制机制、覆盖率机制、长度控制机制对输入的数据进行处理计算,得到生成摘要的内部表示;3.基于步骤2生成的文本内部表示,进一步将其转化为可控长度的摘要结果,系统将结果呈献给用户并进行可视化呈现。本发明专利技术在深度学习生成式模型的基础上,添加了复制机制、覆盖率机制、长度控制机制,实现了对长文本的摘要生成,可读性和可控性强,测评结果显示本发明专利技术的摘要生成效果相比标准生成式模型有明显的提升。

A Controllable Length Text Summary Generation System and Method

【技术实现步骤摘要】
一种可控长度的文本摘要生成系统及方法
本专利技术涉及一种可控长度的文本摘要生成系统及方法,属于自然语言处理

技术介绍
随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、报告等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要则提供了一个高效的解决方案。自动文本摘要技术旨在利用计算机生成更为精炼且保留原文整体含义的的文本,是对原文内容的更精华的提炼,最后输出简洁、流畅、保留关键信息的内容,其有非常多的应用场景,如自动报告生成、新闻标题生成等,它为人类快速获取信息提供了巨大的帮助。自动文本摘要是一件非常有挑战性的工作,早期的一部分工作主要是基于统计学或图排序的算法实现的抽取式的摘要,其通过转述、替换、句子缩写技术生成更加简洁凝练的内容。比起抽取式,生成式更接近人进行摘要的过程。伴随着深度神经网络的兴起,基于神经网络的生成式文本摘要得到快速发展,并取得了不错的成绩,但其效果还有待进一步提升。生成式文本摘要系统大多都是基于序列到序列模型和注意力机制的,二者结合可以胜任大多数自然语言处理领域的相关任务,如机器翻译、对话生成、语音识别、诗词生成等,同时该模型也可以应用到文本摘要领域,但相比其他任务来说,文本摘要难度要大很多,存在额外的多个需要解决的问题:·文本摘要通常处理的文本都是一些新闻、事实描述性的内容,所以其中会存在许多实体名词。但此种实体名词一般出现的频率比较低,所以此种实体容易遇到词表溢出问题,模型既无法识别,又很难将此类实体生成到目标结果中。·由于标准的生成式模型没有对生成重复的问题做优化,而文本摘要的可读性又是非常重要的,因此生成式摘要还需要考虑如何解决摘要生成过程中的重复性问题。·对于对话生成,机器翻译等任务来说来说,通常人们不会去关注生成结果的长度,但是文本摘要任务则不同,如何生成指定字数的摘要是一个非常重要的因素,因此如何控制摘要生成的长度也是一个关键性的问题。基于上述缺陷,本专利技术在上述模型的基础上设计了结合复制机制、覆盖率机制、长度控制机制的文本摘要生成系统,解决了词表溢出问题、生成重复问题、长度控制问题,并将模型进行对接,构建了一个可控长度的文本摘要生成系统。
技术实现思路
本专利技术技术解决问题:针对生成式文本摘要面临的词表溢出问题、生成重复问题、长度控制问题分别设计了复制机制、覆盖率机制、长度控制机制,提出了一个可控长度的多层双向生成式模型。本专利技术技术解决方案:本专利技术一种可控长度的文本摘要生成系统,包括数据预处理模块、模型处理和转化模块、摘要生成及可视化模块;所述数据预处理模块,用于将用户输入的数据进行解析和转化,使之成为模型可以识别的内容,所述模型处理和转化模块,是利用模型对转化后的内容进行分析计算,得出摘要的内部表示,所述摘要生成及可视化模块,用于构建摘要结果并进行可视化展现。进一步的,所述的数据预处理模块,包括数据清洗单元,用于对文本数据可能包含的一些无效或不规则字符进行清洗,排除冗余数据;数据分词单元,用于将长文本序列转化为分词后的词列表;数据序列转化单元,用将分词后的词列表转化为可供模型输入的文本编码序列信息。进一步的,所述的模型处理和转化模块,包括复制机制,用于将输入文本序列中低频实体词复制到目标结果中;覆盖率机制,用于将生成结果中的重复字词进行记录,并在模型训练阶段对生成重复的现象进行惩罚;长度控制机制,用于将长度信息融入模型之中,每生成一个词长度信息便随之衰减。进一步的,所述摘要生成及可视化模块,包括摘要结果转化单元及摘要可视化呈现单元。一种可控长度的文本摘要生成方法,步骤如下:S1.数据预处理模块,将用户输入的待处理源文本进行文本清洗、分词、序列转化得到文本编码序列信息,另外将用户输入的长度信息转化为内部表征数据,所述的文本编码序列信息和长度信息作为下一步的输入。S2.生成式模型的处理和转化,基于步骤S1处理后的文本序列和长度信息,建立生成式模型,通过结合复制机制、覆盖率机制、长度控制机制对输入数据进行计算处理,最终得到生成的摘要结果的内部表示。S3.摘要生成和可视化呈现,基于步骤S2生成的摘要结果的内部表示,系统将其处理转化,形成可读的文本摘要结果,并将结果进行可视化呈现。进一步的,步骤S1输入数据预处理,具体包括以下子步骤:S1.1输入数据的清洗输入的文本数据可能包含一些无效或不规则字符,系统需要对这些字符做清洗,排除冗余数据;清洗的步骤包括去除混杂数据、大小写转化、全半角转换。S1.2输入数据的分词将步骤S1.1中的处理结果进一步进行分词处理,使用业界标准的自然语言分词工具实现,将长文本序列转化为分词后的词列表。S1.3输入数据的序列转化将步骤S1.2中的分词结果根据预先定义好的词表,将其转化为可供模型输入的文本编码序列信息。进一步的,步骤S2生成式模型的处理和转化,具体包括以下子步骤:S2.1设计复制机制所述的设计复制机制,将输入文本序列中低频实体词复制到目标结果中,有效解决词表溢出问题。S2.2设计覆盖率机制所述的设计覆盖率机制,将生成结果中的重复字词进行记录,并在模型训练阶段对生成重复的现象进行惩罚,有效解决生成重复问题。S2.3设计长度控制机制所述的设计长度控制机制,将长度信息融入模型之中,每生成一个词长度信息便随之衰减,使得模型可以学习到长度信息的影响。进一步的,步骤S3摘要生成和可视化呈现,具体包括以下子步骤:S3.1摘要结果转化将步骤S2中生成的摘要内部表征结果进行处理转化,形成可读的摘要文本。S3.2摘要可视化呈现将生成的摘要文本在可视化系统中呈现,并输出结果中的每一个词的生成概率、复制概率并将其可视化呈现,另外该系统还可以展示输出摘要结果和源文本之间注意力机制的映射关系,直观地呈现源文本各个词对摘要结果各个词的影响程度。本专利技术阐述了一种可控长度的文本摘要生成系统及方法,其优点及功效在于:有效解决生成式摘要系统面临的词表溢出问题、生成重复问题和长度控制问题,极大提升生成摘要的可读性和可控性。附图说明图1为本专利技术系统的总体框架。图2为本专利技术系统中的数据预处理流程框图。图3为本专利技术系统中的复制机制框图。图4为本专利技术系统中的覆盖率机制框图。图5为本专利技术系统中的长度控制机制框图。图6为本专利技术系统中的摘要系统生成样例结果。图7本专利技术系统中的摘要结果注意力分布。具体实施方式下面结合附图,对本专利技术的技术方案做进一步的说明。如图1所示,本专利技术是一种可控长度的文本摘要生成系统,包括:输入数据预处理模块、模型的处理和转化模块、摘要生成和可视化呈现三大模块,其主要功能都涵盖在图中所示的三层模块架构中。下面分别对各部分进行详细说明。所述数据预处理模块,用于将用户输入的数据进行解析和转化,使之成为模型可以识别的内容,包括数据清洗单元、数据分词单元、数据序列转化单元。所述数据清洗单元,用于对文本数据可能包含的一些无效或不规则字符进行清洗,该数据清洗单元具体包括数据类型转换、大小写转换、全半角转换;数据分词单元,用于将长文本序列转化为分词后的词列表;数据序列转化单元,用将分词后的词列表转化为可供模型输入的文本编码序列信息。另外本模块还提供了必要的请求处理和响应生成的额外功能,用于对接可视化呈现模块。所述模型处理和本文档来自技高网
...

【技术保护点】
1.一种可控长度的文本摘要生成系统,其特征在于:该系统包括数据预处理模块、模型处理和转化模块、摘要生成及可视化模块;所述数据预处理模块,用于将用户输入的数据进行解析和转化,使之成为模型可以识别的内容;所述模型处理和转化模块,是利用模型对转化后的内容进行分析计算,得出摘要的内部表示;所述摘要生成及可视化模块,用于构建摘要结果并进行可视化展现;进一步的,所述的数据预处理模块,包括数据清洗单元,用于对文本数据可能包含的一些无效或不规则字符进行清洗,排除冗余数据;数据分词单元,用于将长文本序列转化为分词后的词列表;数据序列转化单元,用将分词后的词列表转化为可供模型输入的文本编码序列信息;进一步的,所述的模型处理和转化模块,包括复制机制,用于将输入文本序列中低频实体词复制到目标结果中;覆盖率机制,用于将生成结果中的重复字词进行记录,并在模型训练阶段对生成重复的现象进行惩罚;长度控制机制,用于将长度信息融入模型之中,每生成一个词长度信息便随之衰减;进一步的,所述摘要生成及可视化模块,包括摘要结果转化单元及摘要可视化呈现单元。

【技术特征摘要】
1.一种可控长度的文本摘要生成系统,其特征在于:该系统包括数据预处理模块、模型处理和转化模块、摘要生成及可视化模块;所述数据预处理模块,用于将用户输入的数据进行解析和转化,使之成为模型可以识别的内容;所述模型处理和转化模块,是利用模型对转化后的内容进行分析计算,得出摘要的内部表示;所述摘要生成及可视化模块,用于构建摘要结果并进行可视化展现;进一步的,所述的数据预处理模块,包括数据清洗单元,用于对文本数据可能包含的一些无效或不规则字符进行清洗,排除冗余数据;数据分词单元,用于将长文本序列转化为分词后的词列表;数据序列转化单元,用将分词后的词列表转化为可供模型输入的文本编码序列信息;进一步的,所述的模型处理和转化模块,包括复制机制,用于将输入文本序列中低频实体词复制到目标结果中;覆盖率机制,用于将生成结果中的重复字词进行记录,并在模型训练阶段对生成重复的现象进行惩罚;长度控制机制,用于将长度信息融入模型之中,每生成一个词长度信息便随之衰减;进一步的,所述摘要生成及可视化模块,包括摘要结果转化单元及摘要可视化呈现单元。2.一种可控长度的文本摘要生成方法,其特征在于:该方法步骤如下:S1.数据预处理模块,将用户输入的待处理源文本进行文本清洗、分词、序列转化得到文本编码序列信息,另外将用户输入的长度信息转化为内部表征数据,所述的文本编码序列信息和长度信息作为下一步的输入;S2.生成式模型的处理和转化,基于步骤S1处理后的文本序列和长度信息,建立生成式模型,通过结合复制机制、覆盖率机制、长度控制机制对输入数据进行计算处理,最终得到生成的摘要结果的内部表示;S3.摘要生成和可视化呈现,基于步骤S2生成的摘要结果的内部表示,系统将其处理转化,形成可读的文本摘要结果,并将结果进行可...

【专利技术属性】
技术研发人员:李舟军刘俊杰肖武魁崔庆才
申请(专利权)人:深圳智能思创科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1