生成摘要的文本处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:36195717 阅读:50 留言:0更新日期:2023-01-04 11:47
提供了一种生成摘要的文本处理方法、装置、设备以及存储介质。该文本处理方法包括:获取输入文本;基于输入文本中各个词之间的连接关系,提取输入文本的第一语言模型知识;将输入文本输入至编码器单元;以及由解码器单元基于第一语言模型知识和第二语言模型知识生成输出文本,其中,第二语言模型知识是语言模型基于训练文本集通过学习获得的。基于训练文本集通过学习获得的。基于训练文本集通过学习获得的。

【技术实现步骤摘要】
生成摘要的文本处理方法、装置、设备以及存储介质


[0001]本申请涉及自然语言处理,尤其涉及一种生成摘要的文本处理方法、装置、设备以及存储介质。

技术介绍

[0002]针对文本进行摘要的提取一直是自然语言处理的重点任务。通过提取长篇文本的核心知识和关键内容,可以生成简短的摘要文本,从而有助于用户对长篇文本的内容进行快速并且准确的了解。
[0003]现有的技术通常通过大量语料训练神经网络,从而学习各个词的共现概率,进而基于学习到的知识生成长篇文本的摘要。例如,如图1的(a)所示,神经网络通过大量语料学习到了“首都”和“北京”两个词经常同时出现,那么在自然语言生成的时候,如果出现了首都,则会提高北京的生成概率。例如,如果对一篇文本提取到了“我来到了首都...”这样的部分摘要,则神经网络会倾向于已经学习到的语言知识在“首都”后面补充“北京”一词,从而继续摘要的生成。
[0004]然而,上述依赖于训练语料的摘要生成方法是存在问题的,尤其是当输入文本中出现生僻词或模型尚不知道的分布之外的字词时,由于神经网络没有学习过相关知识,容易造成各种生成问题,如语法错误,语句不流畅等。例如,如图1中的(b)所示,如果输入文本是“鸸鹋像绿鬣蜥白黇鹿是比较难以接近的动物。鸸鹋主要生活在澳洲。鸸鹋被称作澳洲鸵鸟...”,由于神经网络没有学习过“鸸鹋”、“绿鬣蜥”、和“白黇鹿”这几个词汇,更没有见过“鸸鹋”和“是”的搭配,则有可能生成错误的词语。

技术实现思路

[0005]本申请是鉴于以上问题做出的。本申请的目的在于,提供一种生成文本摘要的方法及装置,其能够为用户生成提取了文本的关键内容的文本摘要,同时在保证语法正确和语义流畅的情况下,对输入文本中的生僻字做出恰当的处理。
[0006]在一个示例性方面,本公开提供了一种文本处理方法,该方法包括:获取输入文本;基于所述输入文本中各个词之间的连接关系,提取所述输入文本的第一语言模型知识;将所述输入文本输入至编码器单元;以及由解码器单元基于所述第一语言模型知识和第二语言模型知识生成输出文本,其中,所述第二语言模型知识是所述语言模型基于训练文本集通过学习获得的。
[0007]根据本公开的一些实施例,获取输入文本包括:将所述输入文本进行分词;以及将分词后的输入文本转换为由M个输入文本元素构造的输入文本序列X(X0,X1,...,XM

1),其中M为正整数。
[0008]根据本公开的一些实施例,基于所述输入文本中各个词之间的连接关系,提取所述输入文本的第一语言模型知识包括:计算所述输入文本序列中每两个文本元素之间的连接概率;以及基于所述每两个文本元素之间的连接概率,构建N
×
N的二维概率映射表以作
为所述第一语言模型知识,其中,N为正整数并且N小于或等于M。
[0009]根据本公开的一些实施例,计算所述输入文本序列中每两个文本元素之间的连接概率包括:在输入文本元素B紧邻输入文本元素A之后出现的情况下,将所述输入文本元素A与所述输入文本元素B之间的连接概率P(B|A)确定为等于值1;在所述输入文本元素B不紧邻所述输入文本元素A之后出现的情况下,将所述输入文本元素A与所述输入文本元素B之间的连接概率P(B|A)确定为等于值0。
[0010]根据本公开的一些实施例,该文本处理方法还包括:由所述编码器单元将所述输入文本序列中的每个输入文本元素进行编码以得到编码器语义表示。
[0011]根据本公开的一些实施例,所述输出文本包括由K个输出文本元素构成的输出文本序列Y(Y0,Y1,...,YK

1),并且由解码器单元基于所述第一语言模型知识和第二语言模型知识生成输出文本包括:在所述第一语言模型知识中查询在先的输出文本元素Yi

1,推导输出文本元素Yi为多个候选文本中的每个候选文本第一概率;基于所述编码器语义表示、所述在先的输出文本元素Yi

1以及所述第二语言模型,推导输出文本元素Yi为多个候选文本中的每个候选文本的第二概率;基于所述第一概率和所述第二概率的加权和,推导所述输出文本元素Yi为所述多个候选文本中的每个候选文本的总概率;以及将所述总概率值最高的候选文本确定为所述输出文本元素Yi。
[0012]根据本公开的一些实施例,所述输出文本包括由K个输出文本元素构成的输出文本序列Y(Y0,Y1,...,YK

1),并且由解码器单元基于所述第一语言模型知识和第二语言模型知识生成输出文本包括:在所述第一语言模型知识中查询初始输出文本元素Y0的连接概率表;基于初始输出文本元素Y0的连接概率表,推导输出文本元素Y1为多个候选文本中的每个候选文本第一概率;基于所述编码器语义表示、所述初始输出文本元素Y0以及所述第二语言模型,推导输出文本元素Y1为多个候选文本中的每个候选文本的第二概率;基于所述第一概率和所述第二概率的加权和,推导所述输出文本元素Y1为所述多个候选文本中的每个候选文本的总概率;以及将所述总概率值最高的候选文本确定为所述输出文本元素Y1。
[0013]根据本公开的一些实施例,该文本处理方法还包括针对输出文本元素Yi,其中i为正整数且i>1:将在先的输出文本元素Yi

2的连接概率表向右偏移一次,以得到在先的输出文本元素Yi

1的连接概率表;基于输出文本元素Yi

1的连接概率表,推导输出文本元素Yi为多个候选文本中的每个候选文本第一概率;基于所述编码器语义表示、所述在先的输出文本元素Yi

1以及所述第二语言模型,推导输出文本元素Yi为多个候选文本中的每个候选文本的第二概率;基于所述第一概率和所述第二概率的加权和,推导所述输出文本元素Yi为所述多个候选文本中的每个候选文本的总概率;以及将所述总概率值最高的候选文本确定为所述输出文本元素Yi。
[0014]根据本公开的一些实施例,所述初始输出文本元素Y0的连接概率表对应于所述NxN的二维概率映射表中与所述初始输出文本元素Y0相对应的一行,其指示所述初始输出文本元素Y0与所述输入文本序列中每个文本元素之间的连接概率。
[0015]在另一示例性方面,本公开提供了一种文本处理装置,该装置包括:文本获取模块,其被配置为获取输入文本;语言模型知识提取模块,其被配置为基于所述输入文本中各个词之间的连接关系,提取所述输入文本的第一语言模型知识;编码器单元,其被配置为接
收所述输入文本;以及解码器单元,其被配置为基于所述第一语言模型知识和第二语言模型知识生成输出文本,其中,所述第二语言模型知识是所述语言模型基于训练文本集通过学习获得的。
[0016]在又一示例性方面,本公开提供了一种电子设备,该设备包括:处理器;存储器,存储有一个或多个计算机程序模块;其中,所述一个或多个计算机程序模块被配置为当由所述处理器运行时,执行上述文本处理方法。
[0017]在又一示例性方面,本公开提供了一种非暂时性计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:获取输入文本;基于所述输入文本中各个词之间的连接关系,提取所述输入文本的第一语言模型知识;将所述输入文本输入至编码器单元;以及由解码器单元基于所述第一语言模型知识和第二语言模型知识生成输出文本,其中,所述第二语言模型知识是所述语言模型基于训练文本集通过学习获得的。2.根据权利要求1所述的方法,其中,获取输入文本包括:将所述输入文本进行分词;以及将分词后的输入文本转换为由M个输入文本元素构造的输入文本序列X(X0,X1,

,XM

1),其中M为正整数。3.根据权利要求2所述的方法,其中,基于所述输入文本中各个词之间的连接关系,提取所述输入文本的第一语言模型知识包括:计算所述输入文本序列中每两个文本元素之间的连接概率;以及基于所述每两个文本元素之间的连接概率,构建N
×
N的二维概率映射表以作为所述第一语言模型知识,其中,N为正整数并且N小于或等于M。4.根据权利要求3所述的方法,其中,计算所述输入文本序列中每两个文本元素之间的连接概率包括:在输入文本元素B紧邻输入文本元素A之后出现的情况下,将所述输入文本元素A与所述输入文本元素B之间的连接概率P(B|A)确定为等于值1;在所述输入文本元素B不紧邻所述输入文本元素A之后出现的情况下,将所述输入文本元素A与所述输入文本元素B之间的连接概率P(B|A)确定为等于值0。5.根据权利要求2所述的方法,还包括:由所述编码器单元将所述输入文本序列中的每个输入文本元素进行编码以得到编码器语义表示。6.根据权利要求5所述的方法,其中,所述输出文本包括由K个输出文本元素构成的输出文本序列Y(Y0,Y1,

,YK

1),并且由解码器单元基于所述第一语言模型知识和第二语言模型知识生成输出文本包括:在所述第一语言模型知识中查询在先的输出文本元素Yi

1,推导输出文本元素Yi为多个候选文本中的每个候选文本第一概率;基于所述编码器语义表示、所述在先的输出文本元素Yi

1以及所述第二语言模型,推导输出文本元素Yi为多个候选文本中的每个候选文本的第二概率;基于所述第一概率和所述第二概率的加权和,推导所述输出文本元素Yi为所述多个候选文本中的每个候选文本的总概率;以及将所述总概率值最高的候选文本确定为所述输出文本元素Yi。7.根据权利要求6所述的方法,其中,所述输出文本包括由K个输出文本元素构成的输出文本序列Y(Y0,Y1,

,YK

1)...

【专利技术属性】
技术研发人员:郭垿宏中村一成刘巍李安新陈岚藤本拓吉村建
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1