基于词细粒度的长文本摘要生成方法技术

技术编号:37147321 阅读:35 留言:0更新日期:2023-04-06 21:59
本发明专利技术涉及的是基于词细粒度的长文本摘要生成方法,涉及信息处理技术领域,本发明专利技术结合了传统算法和深度学习算法来解决大数据条件下难以将文本转换为言简意赅的摘要的问题,方法包括以下步骤:将一篇原文本进行文本预处理;再将句子集合载入训练好的改进的NEZHA编码模型中;再将具有语义信息的句子向量载入TextRank算法当中,为每个句子进行排序打分,得到每个句子的重要性得分;最后利用改进的MMR算法过滤掉高耦合的句子,得到低相关高得分的摘要句子集合,即原文本的摘要;本发明专利技术不限制输入文本的字数,并从字、词语、句子多角度挖掘文本的内部信息,又考虑整个文本的结构特征以确保生成的摘要内容的质量、准确性以及可靠性。靠性。靠性。

【技术实现步骤摘要】
基于词细粒度的长文本摘要生成方法


[0001]本专利技术涉及信息处理
,具体为基于词细粒度的长文本摘要生成方法。

技术介绍

[0002]如今,人们可以通过搜索引擎轻易的获取想要的相关信息,并且可以对信息进行整理写进自己的博客中,这促使信息变的更加丰富多样化、公开化以及个性化,然而人们需要花大量的时间从众多的相关信息中得到想要的内容。为了提高从海量信息中快速获取重要信息的效率,文本自动生成摘要成为了现信息处理技术研究的热点内容之一。
[0003]文本自动生成摘要的任务就是将给定的文档进行归纳总结,使总结的内容可以表达出文档的主体内容,且内容尽可能的简短。文本摘要生成的方式主要分为抽取式与生成式。抽取式生成的摘要是按照一定的规则从原文本的句子中提取重要的句子组成摘要内容,能保证句子语义与语法的正确性,但是在整体内容上缺少逻辑性。抽取式自动摘要生成所使用的方法主要基于特征提取、图排序以及传统机器学习方法。
[0004]近年来,随着深度学习的快速发展及其在各个领域的拓展,促使基于生成式自动摘要算法被相继提出,生成式摘要就是让计算机本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于词细粒度的长文本摘要生成方法,其特征在于:该长文本摘要生成方法的具体步骤为:步骤一:对输入的文本进行分词和去除停用词文本预处理操作,再将文本按照文本逻辑框架拆分成句子,从而获得干净的句子集合;步骤二:将处理完的句子载入改进的NEZHA模型,将句子转换词向量;步骤三:将具有语义信息的句子向量载入TextRank算法当中,为每个句子进行排序打分,同时考虑句子与标题之间的相似度、句子在段落中的位置以及句子长度的上下文信息,得到每个句子的重要性得分;步骤四:最后利用改进的MMR算法过滤掉高耦合的句子,得到低相关高得分的摘要句子集合,即原文本的摘要。2.根据权利要求1所述的基于词细粒度的长文本摘要生成方法,其特征在于:步骤一所述对输入的文本数据进行分词和去除停用词,再将文本按照文本逻辑框架拆分成句子,具体为:(1)特殊字符去除:去除特殊字符,主要包括基础的标点符号以及不规则的格式,包括:“}【,~。~——

^.”;(2)分词处理:利用jieba分词工具将文本中的每个句子进行分割成字和词,去除停用词。3.根据权利要求1所述的基于词细粒度的长文本摘要生成方法,其特征在于:步骤二所述将处理完的句子载入改进的NEZHA模型,将句子转换词向量,具体为:S1、文本数据载入改进的NEZHA模型的输入层得到输入词嵌入、输入分段嵌入和位置嵌入,将三者相加,最终得到输入层的输出向量;S2、通过输入层后,进入改进的NEZHA模型的训练层,每个隐藏层由Transformer构成,每个Transformer又由注意力层、中间层和输出层构成,本文使用的注意力机制为12头heads的多头注意力机制,对于每一个head,先通过注意力机制的query、key和value的权重矩阵来求对应的query、key和value向量,再将query与key的向量相乘,之后放缩,得到初步的注意力机制权重矩阵;S3、将注意力层的输出接入一个全连接层,再通过激活函数GELU得到中间层的输出;再经过全连接层与Dropout层,最终通过Norm层得到整个输出,因为有隐层12层,所以需要需要循环进行12次隐藏层操作,最后可以得到句向量。4.根据权利要求3所述的基于词细粒度的长文本摘要生成方法,其特征在于:所述改进的NEZHA模型,具体为:首先将中文词加入到vocab.txt中;输入一个句子S,用pre_tokenize先进行一次分词,得到[w1,w2,...w
i
];再遍历各个wi,如果wi在词表中则保留,否则将wi用NEZHA自带的tokenize函数再分一次;将每个wi的tokenize结果有序拼接起来,作为最后的tokenize的结果。5.根据权利要求1所述的基于词细粒度的长文本摘要生成方法,其特征在于:步骤三所述将具有语义信息的句子向量载入TextRank算法当中,为每个句子进行排序打分,同时考虑句子与标题之间的相似度、句子在段落中的位置以及句子长度的上下文信息,得到每个句子的重要性得分,具体为:
步骤3.1:将向量夹角的余弦值作为衡量两个个体间差异大小的度量,其公式如下:其中,X
i
和X
j
分别代表第i个句子向量和第j个句子向量,cos(X
i
,X
j
)代表两个句子的相似性,步骤3.2:TextRank算法计算句子权重:以句子间是否具有相似性作为边,以句子间的相似度作为边的权值,从而可以构成一无向的加权TextRank网络图,则各句子的权重,即各节点的权重计算公式为:设每个节点的初始权值都为1/|D|,即B0=(1,...,1)
T
,经过若干次的迭代计算后B
j
可收敛为:B
i
=SD
n
×
m
·
B
i
‑1;经过若干次迭代之后,所得到的B
n
×1=[b1,b2,...,b
n
]
T
包含了各个句子节点的权重值,其中b
i
表示第i个句子的得分;步骤3.3:句子与标题相似度的特征:标题相似度权重的计算,标题一般是一篇文章的浓缩,它精简的概括了文章的内容,所以出现标题中的词很可能是文章的特征词。如果文章中的句子与标题相似度越高,则说明句子越重要,那么该句子成为摘要中的一句话的概率越高。所以,计算文章的句子与标题的相似度来调整句子的权重;假设标题的句子为词S0,则其...

【专利技术属性】
技术研发人员:郑园园张舒
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1