文本摘要生成方法、装置、设备及存储介质制造方法及图纸

技术编号:35274276 阅读:33 留言:0更新日期:2022-10-19 10:51
本发明专利技术涉及人工智能技术,揭露一种文本摘要生成方法、装置、设备以及介质,所述方法包括:对获取的待处理文章进行分词处理,根据分词构建词典;对词典编码,得到多个输入向量;对输入向量进行数据增强,得到输入向量对应的第一增强数据、第二增强数据及第三增强数据;对第一增强数据、第二增强数据及第三增强数据进行网络计算,得到输入向量的更新向量;在数据增强的次数达到预设次数时,将更新向量与词典关联,并对关联后的词典进行向量计算,得到更新向量对应的概率向量;根据概率向量构建全局概率路径,根据全局概率路径获取最大概率路径,形成所述待处理文件的摘要。本发明专利技术可以提高文本摘要生成的效率。高文本摘要生成的效率。高文本摘要生成的效率。

【技术实现步骤摘要】
文本摘要生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本摘要生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]为了电子书籍的检索以及信息的浏览等目的,摘要生成技术是根据文章数据生成表示摘要的方法,以实现电子书籍的检索以及信息的浏览等目的。业内现有的文本摘要技术主要包含两种:一种是抽取式的方法,主要是通过计算文章中句子的重要程度,截取最重要的句子作为摘要,这种方法的缺陷是会经常导致截取的句子不完整;另一种是生成式的方法,主要是将文章里所有的词输入进一个编码器模型进行编码,再通过解码器生成句子的摘要。第二种方法的缺陷是解码器和语言模型训练的好坏相关性较强,若模型训练较差则往往会导致生成的句子和文章的主题不相符。而模型训练需要通过标注好的数据学习参数,标注数据则需要人工操作而实现,进而导致基于模型生成文本摘要的效率较低。

技术实现思路

[0003]本专利技术提供一种文本摘要生成方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决文本摘要生成的效率较低的问题。
[0004]为实现上述目的,本专利技术提供的一种文本摘要生成方法,包括:
[0005]对获取的待处理文章进行分词处理,根据分词处理的结果构建词典,对所述词典中的分词进行编码,得到所述分词对应的特征向量,并将所述特征向量作为输入向量;
[0006]对所述输入向量进行数据增强,得到所述输入向量对应的第一增强数据、第二增强数据以及第三增强数据;
[0007]对所述第一增强数据、所述第二增强数据及所述第三增强数据进行网络计算,得到所述输入向量的更新向量;
[0008]当数据增强的次数达到预设次数时,将所述更新向量与所述词典关联,并对关联后的所述词典进行向量计算,得到所述更新向量对应的概率向量;
[0009]根据所述概率向量构建全局概率路径,并根据所述全局概率路径获取最大概率路径,形成所述待处理文件的摘要。
[0010]可选地,所述对获取的待处理文章进行分词处理,包括:
[0011]从所述待处理文章中逐个选取目标语句,对所述目标语句进行词性分词,得到多个第一分词的词性;
[0012]根据所述第一分词的词性对所述目标语句进行句法分析,得到多个第二分词,并删除所述第二分词中的停用词;
[0013]利用预构建的自定义词典对所述第二分词进行筛选及重新划分,得到所述待处理文章的多个分词。
[0014]可选地,所述对所述输入向量进行数据增强,得到所述输入向量对应的第一增强
数据、第二增强数据以及第三增强数据,包括:
[0015]逐个对所述输入向量进行三次向量复制,得到所述输入向量对应的三个复制向量;
[0016]逐个将所述复制向量与随机生成的初始化矩阵进行计算,得到所述输入向量的第一增强数据、第二增强数据以及第三增强数据。
[0017]可选地,所述对所述第一增强数据、所述第二增强数据及所述第三增强数据进行网络计算,得到所述输入向量的更新向量,包括:
[0018]逐个从所述输入向量中选取目标输入向量,利用所述目标输入向量的第一增强数据与每个所述输入向量的第二增强数据进行网络计算,得到所述目标输入向量对应的每一个输入向量的注意力权重值;
[0019]将所述注意力权重值与对应的每一个输入向量的第三增强数据相乘,得到所述目标输入向量对应的每一个输入向量的第三增强更新数据;
[0020]将每一个输入向量的所述第三增强更新数据相加,得到所述目标输入向量的更新向量。
[0021]可选地,所述利用所述目标输入向量的第一增强数据与每个所述输入向量的第二增强数据进行网络计算,得到所述目标输入向量对应的每一个输入向量的注意力权重值,包括:
[0022]将所述第一增强数据与每个所述输入向量的第二增强数据进行内积,得到内积值;
[0023]对所述内积值进行正则化,并将正则化后的内积值输入归一化函数,得到每一个输入向量的注意力权重值。
[0024]可选地,所述对关联后的所述词典进行向量计算,得到所述更新向量对应的概率向量,包括:
[0025]根据所述词典中每个分词对应的更新向量以及特殊字符构建预设的多层感知器的输入层;
[0026]利用所述多层感知器的隐藏层及全连接层对所述输入层进行卷积计算,并将计算结果通过softmax函数进行输出,得到输出向量;
[0027]根据所述词典的长度设置所述输出向量的长度,得到每个分词对应的概率向量,其中,所述概率向量的值表示为所述分词的概率值。
[0028]可选地,所述根据所述全局概率路径获取最大概率路径,形成所述待处理文件的摘要,包括:
[0029]将所述全局概率路径中一级束节点作为基础节点;
[0030]判断所述基础节点的下一级节点的向量值中是否存在空值;
[0031]若存在空值,则将所述基础节点的向量值与所述下一级节点的向量值合并,得到更新向量值;
[0032]若不存在空值,则将判断所述下一级节点的向量值与基础节点的向量值是否相同;
[0033]若相同,则将所述基础节点的向量值与所述下一级节点的向量值合并,得到更新向量值;
[0034]若不相同,则将从所述下一级节点的向量值中选取目标向量值,并将所述目标向量值与所述基础节点的向量值相乘,并将相乘得到的值作为所述下一级节点的更新向量值;
[0035]从所述更新向量值中选取符合预设选值条件的更新向量值作为所述下一级节点新的向量值;
[0036]将所述下一级节点作为新的基础节点并返回判断所述基础节点的下一级节点的向量值中是否存在空值的步骤,直至遍历完所述全局概率路径所有的束节点;
[0037]将最后一个基础节点对应的下一级节点中新的向量值作为摘要进行输出。
[0038]为了解决上述问题,本专利技术还提供一种文本摘要生成装置,所述装置包括:
[0039]输入向量生成模块,用于对获取的待处理文章进行分词处理,根据分词处理的结果构建词典,对所述词典中的分词进行编码,得到所述分词对应的特征向量,并将所述特征向量作为输入向量;
[0040]数据增强模块,用于对所述输入向量进行数据增强,得到所述输入向量对应的第一增强数据、第二增强数据以及第三增强数据;
[0041]更新向量生成模块,用于对所述第一增强数据、所述第二增强数据及所述第三增强数据进行网络计算,得到所述输入向量的更新向量;
[0042]概率向量生成模块,用于当数据增强的次数达到预设次数时,将所述更新向量与所述词典关联,并对关联后的所述词典进行向量计算,得到所述更新向量对应的概率向量;
[0043]摘要生成模块,用于根据所述概率向量构建全局概率路径,并根据所述全局概率路径获取最大概率路径,形成所述待处理文件的摘要。
[0044]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0045]至少一个处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,所述方法包括:对获取的待处理文章进行分词处理,根据分词处理的结果构建词典,对所述词典中的分词进行编码,得到所述分词对应的特征向量,并将所述特征向量作为输入向量;对所述输入向量进行数据增强,得到所述输入向量对应的第一增强数据、第二增强数据以及第三增强数据;对所述第一增强数据、所述第二增强数据及所述第三增强数据进行网络计算,得到所述输入向量的更新向量;当数据增强的次数达到预设次数时,将所述更新向量与所述词典关联,并对关联后的所述词典进行向量计算,得到所述更新向量对应的概率向量;根据所述概率向量构建全局概率路径,并根据所述全局概率路径获取最大概率路径,形成所述待处理文件的摘要。2.如权利要求1所述的文本摘要生成方法,其特征在于,所述对获取的待处理文章进行分词处理,包括:从所述待处理文章中逐个选取目标语句,对所述目标语句进行词性分词,得到多个第一分词的词性;根据所述第一分词的词性对所述目标语句进行句法分析,得到多个第二分词,并删除所述第二分词中的停用词;利用预构建的自定义词典对所述第二分词进行筛选及重新划分,得到所述待处理文章的多个分词。3.如权利要求1所述的文本摘要生成方法,其特征在于,所述对所述输入向量进行数据增强,得到所述输入向量对应的第一增强数据、第二增强数据以及第三增强数据,包括:逐个对所述输入向量进行三次向量复制,得到所述输入向量对应的三个复制向量;逐个将所述复制向量与随机生成的初始化矩阵进行计算,得到所述输入向量的第一增强数据、第二增强数据以及第三增强数据。4.如权利要求1所述的文本摘要生成方法,其特征在于,所述对所述第一增强数据、所述第二增强数据及所述第三增强数据进行网络计算,得到所述输入向量的更新向量,包括:逐个从所述输入向量中选取目标输入向量,利用所述目标输入向量的第一增强数据与每个所述输入向量的第二增强数据进行网络计算,得到所述目标输入向量对应的每一个输入向量的注意力权重值;将所述注意力权重值与对应的每一个输入向量的第三增强数据相乘,得到所述目标输入向量对应的每一个输入向量的第三增强更新数据;将每一个输入向量的所述第三增强更新数据相加,得到所述目标输入向量的更新向量。5.如权利要求4所述的文本摘要生成方法,其特征在于,所述利用所述目标输入向量的第一增强数据与每个所述输入向量的第二增强数据进行网络计算,得到所述目标输入向量对应的每一个输入向量的注意力权重值,包括:将所述第一增强数据与每个所述输入向量的第二增强数据进行内积,得到内积值;对所述内积值进行正则化,并将正则化后的内积值输入归一化函数,得到每一个输入向量的注意力权重值。
6.如权利要求1所述的文本摘要生成方法,其特征在于,所述对关联后的所述词典进行向量计算,得到所述更新向量对应的概率向量,包括:根据所述词典中每...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1