基于知识图谱的文本内容摘要生成方法技术

技术编号:33133730 阅读:147 留言:0更新日期:2022-04-17 00:55
基于知识图谱的文本内容摘要生成方法,通过知识图谱技术,对篇幅较长的文本内容进行知识结点抽取和逻辑结构分析,采用图语义摘要技术,生成内容更加凝聚的文本内容摘要。该方法不仅可以用于单篇文章的内容生成,通过结合分类融合技术,还能实现多篇文章的内容摘要生成,可以实现针对某个自然资源的多方面内容的自动摘要整理工作。自动摘要整理工作。自动摘要整理工作。

【技术实现步骤摘要】
基于知识图谱的文本内容摘要生成方法


[0001]本专利技术属于文本内容处理
,具体涉及一种基于知识图谱的文本内容摘要生成方法。

技术介绍

[0002]随着深度学习相关理论和技术发展,文本摘要技术作为自然语言处理技术的上游任务,通过对指定文档的信息进行压缩和汇总,从而提供一篇短小且信息覆盖全面的摘要。单文档自动摘要技术的核心是对单篇文本中的核心信息进行评估,并且根据语义角色标柱技术和语义依存技术等技术,深度理解词语、句子等文本单位,总结关键信息,生成最终的摘要。
[0003]但是现有的文本摘要技术,主要以短文本为主,且生成的摘要多是对原文本的一种总结,由于文本中存在多个实体关键词,若仅使用原文本信息,摘要模型无法正确理解实体的含义,导致最终生成的只要产生歧义以及缺乏吸引性。

技术实现思路

[0004]本专利技术所要解决的技术问题是自然资源调查文档这类专业性较强的文本,现有的摘要模型无法准确的抽取文本中的摘要,进而如何提高专业文本摘要抽取的准确性,因此提出一种基于知识图谱的文本内容摘要生成方法。
[0005]基于知识图谱的文本内容摘要生成方法,包括如下步骤:
[0006]步骤1,对于输入的文本进行预处理工作,进行分句得到句子集合,并设定摘要输出格式;
[0007]步骤2,利用知识图谱网络,基于实体概念集以及概念相似度,对文本进行实体增强;
[0008]步骤3,对于得到的句子集合,利用BERT预训练模型,初始化文本序列向量;
[0009]步骤4,利用编码器对文本语句和实体增强语句进行编码,通过解码器将二者拼接,生成摘要。
[0010]进一步地,所述步骤1包括以下过程:
[0011]输入原文S,参考摘要A,利用分句工具jieba对S进行分句,得到句子集合L
s
,并对摘要A进行分字操作,得到摘要A的Token组合,并在开头和结尾分别添加开始标识符A
start
和结尾标识符A
end
,并控制摘要A的长度为K个字符;
[0012]进一步地,所述步骤2包括以下过程:
[0013]针对集合L
s
中的句子l
g
,利用命名实体识别工具ltp,得到句子l
g
的实体集合E={e1,e2,

e
m
};利用知识图谱网络,对原文S进行实体增强,得到实体增强集D
Inc
,具体流程如下:
[0014]在包含实体和实体概念的开发领域知识图谱G中,若实体e
i
∈G,则根据图谱得到实体的概念集
[0015]利用文本相似函数Sim计算l
g
与概念集中每个概念的相似度,其中文本相似度的计算方式如下:
[0016][0017]其中,句子l
g
的向量表示为l
g
={x1,x2,

,x
n
},d
i
的向量表示为d
i
={y1,y2,

,y
n
},文本的向量表示通过BERT预训练模型中提取;
[0018]然后,选取与l
g
最匹配的实体e
i
的一条概念的一条概念
[0019]设置概念候选阈值k,若时,将概念加入实体增强集中;
[0020]重复以上步骤,遍历完实体集合E,得到句子l
g
的实体增强集D
Inc

[0021]进一步地,所述步骤3包括以下过程:
[0022]对于句子集合L
s
中的句子l
g
,以单个汉字切分为长度M的Token集合V
g
={v1,v2,

v
M
},并利用Bert中文预训练模型提供的通用词表将V
g
中的单字转换为词表中的ID,利用转换函数BertID得到原文文本序列P={p1,p2,

p
M
},其中P=BertID(V
g
);
[0023]对于摘要A中的Token集合,利用BertID函数,得到长度K为的摘要文本序列Q={q1,q2,

q
K
};对于实体增强集D
Inc
中的Token集合利用BertID函数,得到长度为N的实体文本序列R={r1,r2,

r
N
};
[0024]对于原文文本序列P,摘要文本序列Q,实体文本序列R,通过Bert中文预训练模型BertEmb函数,其中BERTEmb函数为Transformer架构中的Encoder部分,包括N层编码器计算单元堆叠而成,每层中包含Mutil

HeadAttention、LayerNormalization、Feed Forward,通过上述结构计算得到原文文本序列向量表征X={x1,x2,

x
M
},摘要文本序列向量表征Y={y1,y2,

y
K
},实体文本序列向量表征Z={z1,z2,

z
N
}。
[0025]进一步地,所述步骤4包括以下过程:
[0026]在原文编码器Encoder中,以原文文本序列向量表征X作为输入,利用LSTM模型计算在t1(1≤t1≤M)时间步的隐藏层状态h
t1
,其中h
t1
=LSTM
enc
(x
t1
,h
x1
‑1),x
t1
为t1时间步的输入,h
t1
‑1为上一时间步的隐藏状态;对于长度为M的序列输入,总共经过M个时间步,计算得到原文隐藏状态序列H={h1,h2,

h
M
};
[0027]实体编码器与原文编码器的模型架构相同,以实体文本序列向量表征Z作为输入,计算在t2(1≤t2≤K)时间步的隐藏状态h'
t2
=LSTM
enc
(x
t2
,h'
t2
‑1),并经过N个时间步,得到实体部分隐藏状态序列H'={h'1,h'2,

h'
N
};
[0028]在解码器Decoder中,利用得到的H和H'的最后一个时间步的隐藏状态序列,来初始化解码器的初始状态s0=ReLU(W
f
·
[h
M
,h'
N
]),其中ReLU(x)=max(0,x),W
f
为学习参数;
[0029]在解码器Decoder中,利用LSTM模型计算t(0≤t2≤N)时间步的隐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的文本内容摘要生成方法,其特征在于:所述方法包括如下步骤:步骤1,对于输入的文本进行预处理工作,进行分句得到句子集合,并设定摘要输出格式;步骤2,利用知识图谱网络,基于实体概念集以及概念相似度,对文本进行实体增强;步骤3,对于得到的句子集合,利用BERT预训练模型,初始化文本序列向量;步骤4,利用编码器对文本语句和实体增强语句进行编码,通过解码器将二者拼接,生成摘要。2.根据权利要求1所述的基于知识图谱的文本内容摘要生成方法,其特征在于:所述步骤1包括以下过程:输入原文S,参考摘要A,利用分句工具jieba对S进行分句,得到句子集合L
s
,并对摘要A进行分字操作,得到摘要A的Token组合,并在开头和结尾分别添加开始标识符A
start
和结尾标识符A
end
,并控制摘要A的长度为K个字符。3.根据权利要求1所述的基于知识图谱的文本内容摘要生成方法,其特征在于:所述步骤2包括以下过程:针对集合L
s
中的句子l
g
,利用命名实体识别工具ltp,得到句子l
g
的实体集合E={e1,e2,...e
m
};利用知识图谱网络,对原文S进行实体增强,得到实体增强集D
Inc
,具体流程如下:在包含实体和实体概念的开发领域知识图谱G中,若实体e
i
∈G,则根据图谱得到实体的概念集利用文本相似函数Sim计算l
g
与概念集中每个概念的相似度,其中文本相似度的计算方式如下:其中,句子l
g
的向量表示为l
g
={x1,x2,...,x
n
},d
i
的向量表示为d
i
={y1,y2,...,y
n
},文本的向量表示通过BERT预训练模型中提取;然后,选取与l
g
最匹配的实体e
i
的一条概念的一条概念设置概念候选阈值k,若时,将概念加入实体增强集中;重复以上步骤,遍历完实体集合E,得到句子l
g
的实体增强集D
Inc
。4.根据权利要求1所述的基于知识图谱的文本内容摘要生成方法,其特征在于:所述步骤3包括以下过程:对于句子集合L
s
中的句子l
g
,以单个汉字切分为长度M的Token集合V
g
={v1,v2,...v
M
},并利用Bert中文预训练模型提供的通用词表将V
g
中的单字转换为词表中的ID,利用转换函数BertID得到原文文本序列P={p1,p2,...p
M
},其中P=BertID(V
g
);对于摘要A中的Token集合利用BertID函数,得到长度K为的摘要文本序列Q={q1,q2,...q
K
};对于实体增强集D
Inc
中的Token集合利用BertID函数,得到长度为N的实体文本序列R={r1,r2,...r
N
};
对于原文文本序列P,摘要文本序列Q,实体文本序列R,通过Bert中文预训练模型BertEmb函数,得到编码器和解码器的Embedding向量表征,其中BERTEmb函数为Transformer架构中的Encoder部分,包括N层编码器计算单元堆叠而成,每层中包含Mutil

Head Attention、Layer Normalization、Feed Forward,通过上述结构计算得到原文文本序列向量表征X={x1,x2,...x
M
},摘要文本序列向量表征Y={y1,y2,...y
K
},实体文本序列向量表征Z={z1,z2,...z
N
}。5.根据权利要求1所述的基于知识图谱的文本内容摘要生成方法,其特征在于:所述步骤4包括以下过程:在原文编码器Encoder中,以原文文本序列向量表征X作为输入,利用LSTM模型计算在t1(1≤t1≤M)时间步的隐藏层状态h
t1
,其中h
t1
=LSTM
enc
(x
t1
,h
t1
‑1),x
t1
为t1时间步的...

【专利技术属性】
技术研发人员:孙国梓唐翔宇李华康龚乐君陈学业聂可
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1