一种中文文本摘要生成方法、计算机可读储存介质及计算机设备技术

技术编号:20160509 阅读:29 留言:0更新日期:2019-01-19 00:13
本发明专利技术涉及一种文本摘要的生成方法、计算机可读储存介质及计算机设备,包括:分别获得文本的词集合和摘要的词集合;分别计算文本的词集合和摘要的词集合中各词的词频‑逆文档频率,获得文本词表和摘要词表,获得文本词表中各词的融合向量和摘要词表中各词的融合向量;获得待处理文本的词集合;获得待处理文本的词集合中各词的融合向量;生成摘要词向量;根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词,并将该词输出作为摘要。根据词频‑逆文档频率获得词表,从而使一些频次出现较低但是能反映文本主题的词汇得以保留,减少了超出词表的问题,从而使生成的摘要能更准确地表达文本含义的词汇。

【技术实现步骤摘要】
一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
本专利技术涉及文本数据处理领域,特别是涉及一种文本摘要的生成方法、计算机可读储存介质及计算机设备。
技术介绍
随着数据的爆炸性发展,尤其是文本数据的剧增,人们已经无法及时浏览和理解所有感兴趣的文本,但遗漏某些重要的文本数据又会造成很多组织和应用的损失,因此,文本摘要作为总结文本重要数据的信息,成为了人们关注的重点,而如何根据文本数据自动生成摘要也成为了热门研究的课题。目前,现有的文本摘要自动生成方法,主要是使用机器学习中的编码-解码模型,具体的,该模型先使用循环神经网络(RecurrentNeuralNetworks,RNN)作为编码器,将原文本进行信息编码压缩和提取,然后使用带有注意力机制的解码器将编码器压缩的信息进行解码,进而生成原文本的摘要;其中,解码器的结构与编码器一致,也是由循环神经网络构成。但是,通过编码-解码模型生成文本摘要时,解码器每一个时间步都会产生一个词汇,再将这些词汇组合成为句子摘要。而这些词汇的来源则是一个大小为n的词表,从计算时间成本的角度考虑,这个词表通常不会包含训练集中所有的词汇,训练集中的大量低频词汇只能统一用“UNK”字符代替;另一方面,测试集中的词不一定完全在训练集中出现过,当然也未必会在可预测的词表的范围内,这就出现了超出词表(outofvocabulary,简称OOV)的问题。当新的文本中包含一些重要的超出词表的词汇时,由于编码-解码模型仅仅利用在训练集中学到的参数,在生成的时候,逐个预测某一个位置应当选择词表中的哪一个词,因此,在生成摘要时,只能使用“UNK”来代替这些重要的超出词表的词语,进而使得提取出来的摘要不准确的问题。
技术实现思路
基于此,本专利技术的目的在于,提供一种文本摘要的生成方法,其具有可使一些频次出现较低但是能反映文本主题的词汇得以保留,减少超出词表的问题,使生成的摘要能更准确地表达文本含义的优点。一种文本摘要的生成方法,包括如下步骤:分别对训练集中的文本和摘要进行词切分处理,获得文本的词集合和摘要的词集合;分别计算文本的词集合和摘要的词集合中各词的词频-逆文档频率,获得文本词表和摘要词表,并分别对文本词表和摘要词表中的各词进行向量化处理,获得文本词表中各词的融合向量和摘要词表中各词的融合向量;将待处理文本进行词切分处理,获得待处理文本的词集合;根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系,将待处理文本的词集合中的各词进行词嵌入处理,获得待处理文本的词集合中各词的融合向量;将待处理文本的词集合中各词的融合向量输入到编码-解码模型中,生成摘要词向量;根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词,并将该词输出作为摘要。相比于现有技术,本专利技术通过计算各词的词频-逆文档频率,进而根据词频-逆文档频率获得词表,从而使一些频次出现较低但是能反映文本主题的词汇得以保留,减少了超出词表的问题,从而使生成的摘要能更准确地表达文本含义的词汇。进一步地,所述计算文本的词集合中各词的词频-逆文档频率,获得文本词表时,包括如下步骤:获取文本的词集合中各词在训练集中的每个文本文档的词频;获取文本的词集合中各词在训练集中的每个文本文档的逆文档频率;获取文本的词集合中各词在训练集中的每个文本文档的词频-逆文档频率;获取文本的词集合中各词在训练集中所有文本文档的词频-逆文档频率;将文本的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;获取排序在第一个设定阈值内的词频-逆文档频率对应的词作为文本词表。进一步地,所述计算摘要的词集合中各词的词频-逆文档频率,获得摘要词表时,包括如下步骤:获取摘要的词集合中各词在训练集中的每个摘要文档的词频;获取摘要的词集合中各词在训练集中的每个摘要文档的逆文档频率;获取摘要的词集合中各词在训练集中的每个摘要文档的词频-逆文档频率;获取摘要的词集合中各词在训练集中所有摘要文档的词频-逆文档频率;将摘要的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;获取排序在第二个设定阈值内的词频-逆文档频率对应的词作为摘要词表。进一步地,所述第一设定阈值和第二设定阈值的大小相同,且所述第一设定阈值和第二设定阈值为排序位置在所有词排序位置的前70%-90%,即获取排序在前70%-90%内的词频-逆文档频率对应的词作为文本词表或摘要词表,通过获取排序在前70%内的词频-逆文档频率对应的词作为文本词表或摘要词表,可减少后续词语的向量处理等工作,提高效率;通过获取排序在前90%内的词频-逆文档频率对应的词作为文本词表或摘要词表,可囊括尽可多的词语作为文本词表或摘要词表,尽可能出现降低超词表的问题。进一步地,所述对文本词表中的各词进行向量化处理,获得文本词表中各词的融合向量时,包括如下步骤:将文本词表中的各词分别进行词向量化;将文本词表中的各词分别进行词性标注,获得文本词表中各词的词性向量;将文本词表中的各词的词向量和词性向量进行拼接,获得文本词表中各词的融合向量。通过增加词性特征来表征词特征,进而提高后续摘要生成的准确性。进一步地,所述对摘要词表中的各词进行向量化处理,获得摘要词表中各词的融合向量时,包括如下步骤:将摘要词表中的各词分别进行词向量化;将摘要词表中的各词分别进行词性标注,获得摘要词表中各词的词性向量;将摘要词表中的各词的词向量和词性向量进行拼接,获得摘要词表中各词的融合向量。通过增加词性特征来表征词特征,进而提高后续摘要生成的准确性。进一步地,在获得待处理文本的词集合中各词的融合向量之后,还将待处理文本的词集合中各词的融合向量进行局部注意机制处理,获得加权后的融合向量,再将加权后的融合向量输入到编码-解码模型中,生成摘要词向量,通过增加局部注意机制,可增强文本的重点信息,衰减非重点信息,进而使生成的摘要更加准确。进一步地,在根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词时,包括如下步骤:根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,判断摘要词向量对应的词是否存在于摘要词表中;在摘要词向量对应的词存在于摘要词表中时,获得摘要词向量对应的词,并输出作为摘要;在摘要词向量对应的词不存在于摘要词表中时,计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离,且将欧几里得距离最小时对应的摘要词表中的词输出作为摘要。在超出词表时,通过计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离,寻找相似的词汇,并根据词性特征使词性相同的词更接近成为超出词表的替换词,进而使生成的摘要在超出词表的前提下,仍然能保留原语义。本专利技术还提供一种计算机可读储存介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述所述的文本摘要的生成方法的步骤。本专利技术还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述的文本摘要的生成方法的步骤。为了更好地理解和实施,下面结合附图详细说明本专利技术。附图说明图1为本专利技术文本摘要的生成方法的流程图。具体实施方式请参阅图1,其为本专利技术文本摘要的生成方法的流程图。所述文本本文档来自技高网
...

【技术保护点】
1.一种文本摘要的生成方法,其特征在于,包括如下步骤:分别对训练集中的文本和摘要进行词切分处理,获得文本的词集合和摘要的词集合;分别计算文本的词集合和摘要的词集合中各词的词频‑逆文档频率,获得文本词表和摘要词表,并分别对文本词表和摘要词表中的各词进行向量化处理,获得文本词表中各词的融合向量和摘要词表中各词的融合向量;将待处理文本进行词切分处理,获得待处理文本的词集合;根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系,将待处理文本的词集合中的各词进行词嵌入处理,获得待处理文本的词集合中各词的融合向量;将待处理文本的词集合中各词的融合向量输入到编码‑解码模型中,生成摘要词向量;根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词,并将该词输出作为摘要。

【技术特征摘要】
1.一种文本摘要的生成方法,其特征在于,包括如下步骤:分别对训练集中的文本和摘要进行词切分处理,获得文本的词集合和摘要的词集合;分别计算文本的词集合和摘要的词集合中各词的词频-逆文档频率,获得文本词表和摘要词表,并分别对文本词表和摘要词表中的各词进行向量化处理,获得文本词表中各词的融合向量和摘要词表中各词的融合向量;将待处理文本进行词切分处理,获得待处理文本的词集合;根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系,将待处理文本的词集合中的各词进行词嵌入处理,获得待处理文本的词集合中各词的融合向量;将待处理文本的词集合中各词的融合向量输入到编码-解码模型中,生成摘要词向量;根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系,获得摘要词向量对应的词,并将该词输出作为摘要。2.根据权利要求1所述的文本摘要的生成方法,其特征在于,所述计算文本的词集合中各词的词频-逆文档频率,获得文本词表时,包括如下步骤:获取文本的词集合中各词在训练集中的每个文本文档的词频;获取文本的词集合中各词在训练集中的每个文本文档的逆文档频率;获取文本的词集合中各词在训练集中的每个文本文档的词频-逆文档频率;获取文本的词集合中各词在训练集中所有文本文档的词频-逆文档频率;将文本的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;获取排序在第一个设定阈值内的词频-逆文档频率对应的词作为文本词表。3.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述计算摘要的词集合中各词的词频-逆文档频率,获得摘要词表时,包括如下步骤:获取摘要的词集合中各词在训练集中的每个摘要文档的词频;获取摘要的词集合中各词在训练集中的每个摘要文档的逆文档频率;获取摘要的词集合中各词在训练集中的每个摘要文档的词频-逆文档频率;获取摘要的词集合中各词在训练集中所有摘要文档的词频-逆文档频率;将摘要的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序;获取排序在第二个设定阈值内的词频-逆文档频率对应的词作为摘要词表。4.根据权利要求3所述的文本摘要的生成方法,其特征在于,所述第一设定阈值和第二设定阈值的大小相同,...

【专利技术属性】
技术研发人员:曾碧卿周才东
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1