文本摘要生成方法、装置、设备及存储介质制造方法及图纸

技术编号：35274276 阅读：33 留言：0更新日期：2022-10-19 10:51

本发明专利技术涉及人工智能技术，揭露一种文本摘要生成方法、装置、设备以及介质，所述方法包括：对获取的待处理文章进行分词处理，根据分词构建词典；对词典编码，得到多个输入向量；对输入向量进行数据增强，得到输入向量对应的第一增强数据、第二增强数据及第三增强数据；对第一增强数据、第二增强数据及第三增强数据进行网络计算，得到输入向量的更新向量；在数据增强的次数达到预设次数时，将更新向量与词典关联，并对关联后的词典进行向量计算，得到更新向量对应的概率向量；根据概率向量构建全局概率路径，根据全局概率路径获取最大概率路径，形成所述待处理文件的摘要。本发明专利技术可以提高文本摘要生成的效率。高文本摘要生成的效率。高文本摘要生成的效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本摘要生成方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种文本摘要生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]为了电子书籍的检索以及信息的浏览等目的，摘要生成技术是根据文章数据生成表示摘要的方法，以实现电子书籍的检索以及信息的浏览等目的。业内现有的文本摘要技术主要包含两种：一种是抽取式的方法，主要是通过计算文章中句子的重要程度，截取最重要的句子作为摘要，这种方法的缺陷是会经常导致截取的句子不完整；另一种是生成式的方法，主要是将文章里所有的词输入进一个编码器模型进行编码，再通过解码器生成句子的摘要。第二种方法的缺陷是解码器和语言模型训练的好坏相关性较强，若模型训练较差则往往会导致生成的句子和文章的主题不相符。而模型训练需要通过标注好的数据学习参数，标注数据则需要人工操作而实现，进而导致基于模型生成文本摘要的效率较低。

技术实现思路

[0003]本专利技术提供一种文本摘要生成方法、装置、电子设备及计算机可读存储介质，其主要目的在于解决文本摘要生成的效率较低的问题。
[0004]为实现上述目的，本专利技术提供的一种文本摘要生成方法，包括：
[0005]对获取的待处理文章进行分词处理，根据分词处理的结果构建词典，对所述词典中的分词进行编码，得到所述分词对应的特征向量，并将所述特征向量作为输入向量；
[0006]对所述输入向量进行数据增强，得到所述输入向量对应的第一增强数据、第二增强数据以及第三增强数据；
[0007...

【技术保护点】

【技术特征摘要】
1.一种文本摘要生成方法，其特征在于，所述方法包括：对获取的待处理文章进行分词处理，根据分词处理的结果构建词典，对所述词典中的分词进行编码，得到所述分词对应的特征向量，并将所述特征向量作为输入向量；对所述输入向量进行数据增强，得到所述输入向量对应的第一增强数据、第二增强数据以及第三增强数据；对所述第一增强数据、所述第二增强数据及所述第三增强数据进行网络计算，得到所述输入向量的更新向量；当数据增强的次数达到预设次数时，将所述更新向量与所述词典关联，并对关联后的所述词典进行向量计算，得到所述更新向量对应的概率向量；根据所述概率向量构建全局概率路径，并根据所述全局概率路径获取最大概率路径，形成所述待处理文件的摘要。2.如权利要求1所述的文本摘要生成方法，其特征在于，所述对获取的待处理文章进行分词处理，包括：从所述待处理文章中逐个选取目标语句，对所述目标语句进行词性分词，得到多个第一分词的词性；根据所述第一分词的词性对所述目标语句进行句法分析，得到多个第二分词，并删除所述第二分词中的停用词；利用预构建的自定义词典对所述第二分词进行筛选及重新划分，得到所述待处理文章的多个分词。3.如权利要求1所述的文本摘要生成方法，其特征在于，所述对所述输入向量进行数据增强，得到所述输入向量对应的第一增强数据、第二增强数据以及第三增强数据，包括：逐个对所述输入向量进行三次向量复制，得到所述输入向量对应的三个复制向量；逐个将所述复制向量与随机生成的初始化矩阵进行计算，得到所述输入向量的第一增强数据、第二增强数据以及第三增强数据。4.如权利要求1所述的文本摘要生成方法，其特征在于，所述对所述第一增强数据、所述第二增强数据及所述第三增强数据进行网络计算，得到所述输入向量的更新向量，包括：逐个从所述输入向量中选取目标输入向量，利用所述目标输入向量的第一增强数据与每个所述输入向量的第二增强数据进行网络计算，得到所述目标输入向量对应的每一个输入向量的注意力权重值；将所述注意力权重值与对应的每一个输入向量的第三增强数据相乘，得到所述目标输入向量对应的每一个输入向量的第三增强更新数据；将每一个输入向量的所述第三增强更新数据相加，得到所述目标输入向量的更新向量。5.如权利要求4所述的文本摘要生成方法，其特征在于，所述利用所述目标输入向量的第一增强数据与每个所述输入向量的第二增强数据进行网络计算，得到所述目标输入向量对应的每一个输入向量的注意力权重值，包括：将所述第一增强数据与每个所述输入向量的第二增强数据进行内积，得到内积值；对所述内积值进行正则化，并将正则化后的内积值输入归一化函数，得到每一个输入向量的注意力权重值。
6.如权利要求1所述的文本摘要生成方法，其特征在于，所述对关联后的所述词典进行向量计算，得到所述更新向量对应的概率向量，包括：根据所述词典中每...

【专利技术属性】
技术研发人员：舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人