一种文本摘要生成方法技术

技术编号:20944395 阅读:20 留言:0更新日期:2019-04-24 02:21
本申请披露了一种文本摘要生成方法,包括:基于输入文本的内容和输入文本对应领域的业务信息,获取普通生成词和领域词的概率;基于所述普通生成词和领域词的概率以及对应词汇,生成输入文本对应的摘要信息。本申请还披露了一种文本摘要生成方法,包括:基于编码后的输入文本,实时获取输入文本对应的普通生成词、复制词和领域词的概率,基于该三者的概率和对应词汇来获取摘要信息。本申请的方法能够结合相关的业务领域,基于对应的领域库纳入该领域的相关业务信息,提取摘要词,更为准确地总结出相关业务过程的摘要信息;同时,综合多种机制可准确识别关键信息、提高流畅度并避免信息冗余。

A Method for Generating Text Abstracts

This application discloses a text summary generation method, which includes: the probability of acquiring common generated words and domain words based on the content of the input text and business information of the corresponding field of the input text; and the probability of generating the corresponding summary information of the input text based on the probability of the common generated words and domain words and the corresponding vocabulary. The application also discloses a text summary generation method, which includes: real-time acquisition of the probability of common generated words, duplicated words and domain words corresponding to the input text based on the encoded input text, and acquisition of summary information based on the probability of the three and the corresponding vocabulary. The method of this application can combine the relevant business areas, incorporate relevant business information into the field based on the corresponding domain database, extract summary words, and summarize more accurately the relevant business process summary information; at the same time, integrate multiple mechanisms to accurately identify key information, improve fluency and avoid information redundancy.

【技术实现步骤摘要】
一种文本摘要生成方法
本专利技术涉及自然语言处理和人机互助
,特别是涉及一种文本摘要生成方法。
技术介绍
随着人工智能的迅猛发展,机器辅助人去完成任务越来越显得必要。各行各业都需要记录过往信息,形成总结,文章摘要技术就显得尤为必要。其中,理解文章意图、获取关键信息最为关键。以公共服务业为代表。例如运营商,人们会咨询各种电信问题,而工作人员会对每天解答的问题形成记录,对于不能及时解决的便会填写工单提交下去。此技术将辅助工作人员完成工单的填写,减少其工作量。还例如,在基于通信网络的聊天工具或者智能语音服务中,提供基于互联网客户端的会话服务,包括语音和文字传输。目前聊天工具大多进行简单的记录管理功能,不能提供精准的闲聊和秘书服务,主要问题在于不能对于获取信息进行准确提取其摘要信息。现有的技术方案在自动文摘的技术框架内,主要分为抽取式和概括式两类。其中,抽取式的核心思想来自于一个假设,即一个文档的核心思想来自这个文档中的一句或者几句话。因此,抽取式的摘要任务就转化为对这篇文档句子重要程度的排序。另外,概括式要求系统理解文档所表达的意思,然后用可读性强的人类语言将其简练地总结出来。目前概括式常见的方法包括基于循环神经网络RNN的编码译码(encoder-decoder)模型。对于一个普通文档不可避免的存在信息交叠和信息差异。目前技术提取出来的摘要流畅度不高,缺少可读性。而且对于一个文章中存在多意图的现象,会很容易出现信息冗余和总结出非关键信息等缺点。如何准确识别关键信息、提高流畅度并且避免信息冗余是文本自动摘要技术的主要难点和问题。而对于相关领域的摘要,如何纳入该领域相关业务信息,总结出相关业务过程的摘要也是一个难点和问题。
技术实现思路
(一)要解决的技术问题本专利技术的目的是:提供一种文本摘要的生成方法,以克服当前识别关键信息差、流畅度低并且信息冗余的缺陷,同时可以克服由于未纳入领域相关的业务信息所不能准确产生业务过程摘要的问题。(二)技术方案为了解决上述技术问题,本专利技术提供一种文本摘要的生成方法和系统。根据本申请的第一方面,提供一种文本摘要生成方法,包括:基于输入文本和输入文本对应领域的业务信息,获取普通生成词和领域词的概率;基于所述普通生成词和领域词的概率以及对应词汇,生成输入文本对应的摘要信息。其中,所述的方法,还包括:根据输入文本,识别输入文本的所属领域,获取对应领域库内的业务信息。其中,所述识别输入文本的所属领域步骤进一步包括:将输入文本向量化,通过单层多通道卷积提取文本特征,将该文本特征通过池化层进行压缩得到输入文本对应的隐层特征,再将该隐层特征通过多层感知机转换为每个领域的概率值,选取概率值最大的领域作为该输入文本的所属领域。其中,所述生成输入文本对应的摘要信息的步骤进一步包括:根据输入文本的内容获取复制词的概率,基于普通生成词、复制词和领域词的概率以及对应词汇来获取摘要信息。其中,所述生成输入文本对应的摘要信息的步骤进一步包括:将输入文本向量化为输入向量,通过多头注意力机制丰富输入向量的向量信息,再基于全连接层构建向量矩阵。其中,所述获取领域词的概率的步骤进一步包括:将领域库的业务信息与当前输入文本对应的编解码信息联合,拼接后做两层非线性变换,以降低维度;获取联合后信息与领域库中的对应业务信息的相似度,作为该领域库中业务信息对应的所述领域词的概率。其中,所述基于普通生成词、复制词和领域词的概率以及对应词汇来获取摘要信息的步骤进一步包括:将基于生成机制、复制机制和结合领域库生成的结果进行联合,获取普通生成词、复制词和领域词中每个词成为摘要信息的概率,选择其中概率最高的词作为当前时序的摘要信息生成词。其中,所述将输入文本向量化为输入向量的步骤进一步包括:将输入文本通过位置编码方式增加编码的位置信息和时序信息;和/或将输入文本对应的输入向量和角色向量进行拼接,增加输入文本的角色信息。其中,该方法还包括:对于所述输入文本,通过覆盖机制降低已出现词的注意力权重,消除重复出现的词汇。其中,所属领域的业务信息包括领域内通用知识、业务专有知识和/或用户私有资料,所述业务信息通过业务内容标识、属性和属性对应的值来描述,所述属性对应的值基于定性、定量或者二者皆有的方式表达。根据本申请第二方面,提供一种文本摘要生成方法,包括:将输入文本向量化,输入到编码端进行编码,构成编码后的向量矩阵;基于该编码后的向量矩阵,实时获取输入文本对应的普通生成词、复制词和领域词的概率,基于普通生成词、复制词和领域词的概率以及对应词汇来获取摘要信息。根据本申请第三方面,提供一种文本摘要生成系统,包括:概率获取模块,所述概率获取模块用于基于输入文本和输入文本对应领域的业务信息,获取普通生成词和领域词的概率;摘要生成模块,所述摘要生成模块用于基于所述普通生成词和领域词的概率以及对应词汇,生成输入文本对应的摘要信息。根据本申请第四方面,提供一种文本摘要生成系统,包括:向量构建模块,所述向量构建模块用于将输入文本向量化,构成编码后的向量矩阵;摘要生成模块,所述摘要生成模块用于基于该编码后的向量矩阵,实时获取输入文本对应的普通生成词、复制词和领域词的概率,基于该三者的概率和对应词汇来获取摘要信息。(三)有益效果与现有技术相比,本专利技术提出了文本自动摘要方法,该方法使用了多种机制,有效地解决了自动文摘中的可读性新颖性差、缺少专有词和词重复等问题,并且可以进一步准确识别关键信息、提高流畅度和避免信息冗余。另外,结合相关的业务领域,基于领域库纳入该领域相关业务信息,综合提取摘要词,更为准确地总结出相关业务过程的摘要信息。附图说明图1为本申请实施例的文本摘要生成方法的总的流程图;图2为本申请一个实施例的文本摘要生成方法的流程图;图3为本申请实施例的领域确定步骤的流程图;图4为本申请实施例的领域识别模型的结构示意图;图5为本申请实施例的摘要信息生成方法的具体流程图;图6为本申请实施例的基于多机制的摘要生成步骤的流程图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实例用于说明本专利技术,但不用来限制本专利技术的范围。在本申请的一个实施例中,总的来说,如图1所示,本申请的方法在自动文本摘要中基于编码译码(encoder-decoder)结构,结合复制(copy)机制、提取(retrieval)机制和/或覆盖(coverage)机制,生成对话文本中的关键信息,产生摘要信息。在本申请的另一个实施例中,总的来说,本申请的方法在自动文摘中基于编码译码(encoder-decoder)结构,结合业务领域对应领域库的业务信息,综合普通生成词的概率和业务领域生成词的概率,生成对话文本中的关键信息,通过和领域业务信息嵌入结合,产生摘要信息。本申请实施例的各个方法可以在移动终端、计算机终端或者类似的运算装置中执行。以运算装置为例,一般地,该运算装置包括一个或者多个处理器、用于存储数据的存储器以及可以执行通信功能的传输模块。该存储器可以存储应用软件的程序以及模块,例如本申请实施例的摘要生成方法,处理器可以运行存储在该存储器里的软件程序,执行各种数据处理,传输模块可以经由网络接收或者发送数据。总的,如图2所示,在本申请的一个实施例中,提供一种文本摘本文档来自技高网
...

【技术保护点】
1.一种文本摘要生成方法,包括:基于输入文本和输入文本对应领域的业务信息,获取普通生成词和领域词的概率;基于所述普通生成词和领域词的概率以及对应词汇,生成输入文本对应的摘要信息。

【技术特征摘要】
1.一种文本摘要生成方法,包括:基于输入文本和输入文本对应领域的业务信息,获取普通生成词和领域词的概率;基于所述普通生成词和领域词的概率以及对应词汇,生成输入文本对应的摘要信息。2.根据权利要求1所述的方法,还包括:根据输入文本,识别输入文本的所属领域,获取对应领域库内的业务信息。3.根据权利要求2所述的方法,所述识别输入文本的所属领域步骤进一步包括:将输入文本向量化,通过单层多通道卷积提取文本特征,将该文本特征通过池化层进行压缩得到输入文本对应的隐层特征;将该隐层特征通过多层感知机转换为每个领域的概率值,选取所述概率值最大的领域作为该输入文本的所属领域。4.根据权利要求1所述的方法,其中,所述生成输入文本对应的摘要信息的步骤进一步包括:根据输入文本获取复制词的概率,基于普通生成词、复制词和领域词的概率以及对应词汇来获取摘要信息。5.根据权利要求1所述的方法,其中,所述生成输入文本对应的摘要信息的步骤进一步包括:将输入文本向量化为输入向量,通过多头注意力机制丰富所述输入向量的向量信息,再基于全连接层构建向量矩阵。6.根据权利要求1所述的方法,其中,所述获取领域词的概率的步骤进一步包括:将领域库的业务信息与当前输入文本对应的编解码信息联合,拼接后做两层非线性变换,以降低维度;获取联合后信息与领域库中的对应业务信息的相似度,作为该领域库中业务信息对应的所述领域词的概率。7.根据权利要求4所述的方法,其中,所述基于普通生成词、复制词和领域词的...

【专利技术属性】
技术研发人员:陈翰卿宋时德胡加学
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1