一种基于知识提取的轻量型摘要生成方法技术

技术编号:38002359 阅读:28 留言:0更新日期:2023-06-30 10:16
本发明专利技术公开了一种基于知识提取的轻量型摘要生成方法,包括文本模型的生成和文本模型的调用两个阶段。第一阶段包括文本数据的清洗与预处理;文本模型的创建;文本模型的训练与调优;文本模型的生成与获取。第二阶段包括:用户输入待生成摘要的长文本;提取用户输入长文本的特征;调用文本模型;生成用户输入的长文本的摘要。第一阶段采用机器学习的算法搭建文本模型,将提取的特征输入模型,对模型进行训练,自动优化训练参数,使模型更加准确。第二阶段,对用户输入的待生成摘要的长文本进行特征提取,调用第一阶段生成的模型,生成对应的文本摘要。本发明专利技术应用型强,应用范围广,尤其在新闻处理、文案处理等方面将会有很大的应用。文案处理等方面将会有很大的应用。文案处理等方面将会有很大的应用。

【技术实现步骤摘要】
一种基于知识提取的轻量型摘要生成方法


[0001]本专利技术属于自然语言处理
,具体涉及Bert模型、BiLSTM模型等深度学习模型,基于知识提取实现长文本生成轻量型摘要过程。

技术介绍

[0002]近年来,互联网的快速发展给人们带来了海量信息的同时也带来了信息过载的问题。因此研究如何在海量信息中快速获得关键信息变得愈发重要,而自动文本摘要技术正是相关研究的重点领域。随着深度学习相关技术的发展,出现了很多中文文本摘要生成的应用研究。摘要生成是将一段文本压缩成包含原文主要信息的简短版本的任务,文本摘要技术一般可以分为两种提取方法:抽取式文摘,从输入文档抽取最适合的单词或句子并将它们总结起来。生成式文摘,自由生成摘要和产生新的单词和句子。抽取式算法更容易,因为复制源文档中文本块可以确保语法和准确性。
[0003]随着神经网络技术的发展,文本摘要研究的重点也逐渐从抽取式转向生成式。针对于生成式文本摘的技术最初是从机器翻译而发展起来的,它为文本摘要领域开启了新的研究道路。与抽取式自动文本摘要相比,基于生成式的自动文本摘要往往能够生成简洁、本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于知识提取的轻量型摘要生成方法,其特征在于,包括以下两个阶段:阶段1:通过深度学习相关算法,生成文本摘要模型;阶段2:获取用户输入,调用文本摘要模型,生成所对应的文本摘要;阶段1包括的具体步骤如下:步骤1.1:文本数据的预处理,包括四个过程:读取文本并去噪处理;过滤掉200字符以下的语句;文本分词;文本变换句向量;步骤1.2:文本摘要模型构建,包括四个过程:文本句向量获取;候选模型1代价函数提取;候选模型2代价函数提取;知识提取;步骤1.3:文本摘要模型训练;步骤1.4:文本摘要模型评估与调优;步骤1.5:文本摘要模型生成,包括将训练好的模型保存在计算机中,并通过改变模型训练数据集或者迭代次数,以获得多类型的摘要生成模型;阶段2包括的具体步骤如下:步骤2.1:接受用户输入的长文本数据;步骤2.2:对用户输入的长文本数据进行预处理,包括对句子进行分词和过滤字符,然后分类处理并提取文本特征;步骤2.3:调用文本摘要模型对用户数据进行处理,包括调用步骤1.5所述获得摘要生成模型;步骤2.4:针对用户输入的长文本数据,生成简短摘要。2.根据权利要求1所述的基于知识提取的轻量型摘要生成方法,其特征在于:步骤1.2文本摘要模型构建中所述文本句向量获取:通过对每个句子的所有词向量取加权均值,来生成一个句子的句向量:其中,sen_vec表示句向量,n表示每个样本中词的个数,vec
i
表示每个词的词向量,weight(i)表示每个词的权重,权重通过信息增益方法获得。3.根据权利要求2所述的基于知识提取的轻量型摘要生成方法,其特征在于:步骤1.2文本摘要模型构建中所述候选模型1代价函数提取:候选模型1为BERT模型,BERT模型属于无监督的深度学习方法,主要分为两个步骤:预训练,在大量各种任务的无标签的数据上训练模型;微调,根据特定的下游任务,为模型添加输出层,使用定义好的参数对模型进行初始化,然后在该任务的有标签的数据集上对模型的参数进行微调;BERT模型是改进的Transformer模型,采用注意力机制,包括Encoder和Decoder两个阶段,BERT模型采用的代价函数如下:其中,m是训练样本数,i代表目前训练的第i个样本,h
θ
是用参数θ和x预测出来的输出值,y是原训练样本中的输出值,k表示在多分类的类行数,x
(i)
表示第i个训练样本的输入值,y
k(i)
表示在当前k类行数下第i个训练样本的输出值。
4.根据权利要求3所述的基...

【专利技术属性】
技术研发人员:黄文明刘诗月邓珍荣肖雁南温雅媛温佩芝蓝如师
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1