一种文本摘要的生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32546364 阅读:18 留言:0更新日期:2022-03-05 11:44
本申请提供了一种文本摘要的生成方法、装置、电子设备和存储介质,其中,该方法包括:对输入的目标文本进行预处理,得到多个第一句子;在所述多个第一句子满足预设条件的情况下,生成与所述第一句子对应的句特征向量,并确定所述句特征向量对应的权重;根据所述权重对所述多个第一句子进行排序,并从对排序后的所述多个第一句子中选择满足预设长度范围的多个第二句子;其中,排序后的所述多个第一句子是按照权重从大小进行排序;以及基于所述多个第二句子中选择排序靠前的预设数量的第三句子,生成所述目标文本的文本摘要。通过上述方案,解决了文本摘要生成的方式生成的句子连贯性较差,导致生成的摘要不够准确的问题。导致生成的摘要不够准确的问题。导致生成的摘要不够准确的问题。

【技术实现步骤摘要】
一种文本摘要的生成方法、装置、电子设备和存储介质


[0001]本申请涉及数据处理
,特别是涉及一种文本摘要的生成方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网信息的快速发展,使得网络上的文本信息呈现爆炸式增长,为了让用户快速高效地获取感兴趣的信息,必须将长文本信息压缩为内容凝练的短文本,帮用户可以节约大量时间成本。
[0003]目前对于文本摘要进行抽取的方式有两种:
[0004]方式1)基于word2vec+TextRank实现新闻文本摘要抽取,即抽取式文本摘要,基于图实现文本摘要抽取,如TextRank算法,将句子作为顶点,各句子间的相似度作为边的权重,根据顶点的权重分数来确定关键词句。
[0005]方式2)基于深度神经网络模型实现生成式新闻文本摘要,即生成式文本摘要,利用神经网络模型来训练摘要生成模型,将(摘要、源文本)数据对作为训练数据,进而实现文本摘要生成。
[0006]但是,对于上述方式1中的Word2vc+Textrank算法,文本表示模型word2vec,其网络结构简单,特征抽取能力较弱,而对于Textrank算法,仅依赖句子相似度,计算量大,且该算法是将关键句从源文本中抽取出来的,所以会导致句子连贯性较差,字数不好控制、目标句主旨不明确等问题,也就是说其摘要好坏决定于原文。对于上述方式2,基于神经网络实现文本摘要生成,目前现有深度学习模型编码长度最多只有1024,对于长文本来说,无法对过长的句子提取有效特征,因此会导致编码生成的语义向量会丢失大量信息,使得生成的摘要不够准确。

技术实现思路

[0007]本申请实施例的目的在于提供一种文本摘要的生成方法、装置、电子设备和存储介质,解决了现有技术中文本摘要生成的方式生成的句子连贯性较差,导致生成的摘要不够准确的问题。具体技术方案如下:
[0008]在本申请实施的第一方面,首先提供了一种文本摘要的生成方法,包括:对输入的目标文本进行预处理,得到多个第一句子;在所述多个第一句子满足预设条件的情况下,生成与所述第一句子对应的句特征向量,并确定所述句特征向量对应的权重;根据所述权重对所述多个第一句子进行排序,并从对排序后的所述多个第一句子中选择满足预设长度范围的多个第二句子;其中,排序后的所述多个第一句子是按照权重从大小进行排序;以及基于所述多个第二句子中选择排序靠前的预设数量的第三句子,生成所述目标文本的文本摘要。
[0009]可选地,所述对输入的目标文本进行预处理,得到多个第一句子,包括:对所述目标文本进行分句,得到多个第四句子;对所述多个第四句子进行分词;以及将分词后的所述
多个第四句子中的第一目标词和目标字符进行去除,得到所述多个第一句子。
[0010]可选地,所述生成与所述第一句子对应的句特征向量,包括:对所述第一句子进行分词处理,得到与所述第一句子对应的多个分词;以及对所述多个分词进行词向量化,并对词向量化后得到的多个词向量相加后求平均得到所述句特征向量。
[0011]可选地,所述句特征向量包括所述目标文本中与标题对应的标题特征向量和非标题特征向量;所述确定所述句特征向量对应的权重,包括:确定所述标题特征向量与所述非标题特征向量的相似度,并基于所述相似度确定第一权重;基于所述非标题特征向量确定对应的句子在所述目标文本中的位置,并基于所述位置确定第二权重;基于所述非标题特征向量对应的句子中是否包括第二目标词,确定第三权重;基于所述非标题特征向量对应的句子中第三目标词的覆盖率,确定第四权重;以及基于所述第一权重、所述第二权重、所述第三权重和所述第四权重确定所述句特征向量对应的权重。
[0012]可选地,基于所述第一权重、所述第二权重、所述第三权重和所述第四权重确定所述句特征向量对应的权重,包括:计算所述第一权重与第一系数的第一乘积结果;计算所述第二权重与第二系数的第二乘积结果;计算所述第三权重与第三系数的第三乘积结果;计算所述第四权重与第四系数的第四乘积结果;以及将所述第一乘积结果、所述第二乘积结果、所述第三乘积结果和所述第四乘积结果的和确定为所述句特征向量对应的权重;其中,所述第一系数、所述第二系数、所述第三系数和所述第四系数的和为1。
[0013]可选地,所述基于多个第二句子中选择排序靠前的预设数量的第三句子,生成所述目标文本的文本摘要,包括:从预设数量的所述第三句子中选择满足预设长度的第五句子;对选择出来的第五句子进行冗余处理;以及基于进行冗余处理后的第五句子,生成所述目标文本的文本摘要。
[0014]可选地,所述方法还包括:在所述多个第一句子不满足所述预设条件的情况下,基于不满足所述预设条件的多个第一句子,生成所述目标文本的文本摘要。
[0015]可选地,所述预设条件是指句子的数量小于或等于第一预设阈值,或所述预设条件是指文本的总长度小于或等于第二预设阈值。
[0016]在本申请实施的第二方面,还提供了一种文本摘要的生成装置,包括:第一处理模块,用于对输入的目标文本进行预处理,得到多个第一句子;第二处理模块,用于在所述多个第一句子满足预设条件的情况下,生成与所述第一句子对应的句特征向量,并确定所述句特征向量对应的权重;第三处理模块,用于根据所述权重对所述多个第一句子进行排序,并从对排序后的所述多个第一句子中选择满足预设长度范围的多个第二句子;其中,排序后的所述多个第一句子是按照权重从大小进行排序;以及第一生成模块,用于基于所述多个第二句子中选择排序靠前的预设数量的第三句子,生成所述目标文本的文本摘要。
[0017]可选地,所述第一处理模块包括:分句单元,用于对所述目标文本进行分句,得到多个第四句子;第一分词单元,用于对所述多个第四句子进行分词;以及去除单元,用于将分词后的所述多个第四句子中的第一目标词和目标字符进行去除,得到所述多个第一句子。
[0018]可选地,所述第二处理模块包括:第二分词单元,用于对所述第一句子进行分词处理,得到与所述第一句子对应的多个分词;以及第一处理单元,用于对所述多个分词进行词向量化,并对词向量化后得到的多个词向量相加后求平均得到所述句特征向量。
[0019]可选地,所述句特征向量包括所述目标文本中与标题对应的标题特征向量和非标题特征向量;所述第二处理模块包括:第一确定单元,用于确定所述标题特征向量与所述非标题特征向量的相似度,并基于所述相似度确定第一权重;第二确定单元,用于基于所述非标题特征向量确定对应的句子在所述目标文本中的位置,并基于所述位置确定第二权重;第三确定单元,用于基于所述非标题特征向量对应的句子中是否包括第二目标词,确定第三权重;第四确定单元,用于基于所述非标题特征向量对应的句子中第三目标词的覆盖率,确定第四权重;以及第五确定单元,用于基于所述第一权重、所述第二权重、所述第三权重和所述第四权重确定所述句特征向量对应的权重。
[0020]可选地,所述第五确定单元包括:第一计算子单元,用于计算所述第一权重与第一系数的第一乘积结果;第二计算子单元,用于计算所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本摘要的生成方法,其特征在于,包括:对输入的目标文本进行预处理,得到多个第一句子;在所述多个第一句子满足预设条件的情况下,生成与所述第一句子对应的句特征向量,并确定所述句特征向量对应的权重;根据所述权重对所述多个第一句子进行排序,并从对排序后的所述多个第一句子中选择满足预设长度范围的多个第二句子;其中,排序后的所述多个第一句子是按照权重从大小进行排序;以及基于所述多个第二句子中选择排序靠前的预设数量的第三句子,生成所述目标文本的文本摘要。2.根据权利要求1所述的方法,其特征在于,所述对输入的目标文本进行预处理,得到多个第一句子,包括:对所述目标文本进行分句,得到多个第四句子;对所述多个第四句子进行分词;以及将分词后的所述多个第四句子中的第一目标词和目标字符进行去除,得到所述多个第一句子。3.根据权利要求1所述的方法,其特征在于,所述生成与所述第一句子对应的句特征向量,包括:对所述第一句子进行分词处理,得到与所述第一句子对应的多个分词;以及对所述多个分词进行词向量化,并对词向量化后得到的多个词向量相加后求平均得到所述句特征向量。4.根据权利要求1所述的方法,其特征在于,所述句特征向量包括所述目标文本中与标题对应的标题特征向量和非标题特征向量;所述确定所述句特征向量对应的权重,包括:确定所述标题特征向量与所述非标题特征向量的相似度,并基于所述相似度确定第一权重;基于所述非标题特征向量确定对应的句子在所述目标文本中的位置,并基于所述位置确定第二权重;基于所述非标题特征向量对应的句子中是否包括第二目标词,确定第三权重;基于所述非标题特征向量对应的句子中第三目标词的覆盖率,确定第四权重;以及基于所述第一权重、所述第二权重、所述第三权重和所述第四权重确定所述句特征向量对应的权重。5.根据权利要求4所述的方法,其特征在于,基于所述第一权重、所述第二权重、所述第三权重和所述第四权重确定所述句特征向量对应的权重,包括:计算所述第一权重与第一系数的第一乘积结果;计算所述第二权重与第二系数的第二乘积结果;计算所述第三权重与第三系数的第三乘积结果;计算所述第四权...

【专利技术属性】
技术研发人员:任梦星刘炎覃建策陈邦忠
申请(专利权)人:完美世界控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1