当前位置: 首页 > 专利查询>中南大学专利>正文

基于成分句法分析的中文摘要生成方法技术

技术编号:33712114 阅读:50 留言:0更新日期:2022-06-06 08:47
本发明专利技术公开了一种基于成分句法分析的中文摘要生成方法,方法包括:对文档进行预处理,得到文本句子集;基于文本句子集,使用语义提取模型得到文本语义信息编码;基于文本句子集,生成每个句子的成分句法分析结构树,并将每个句子的成分句法分析结构树基于跨度的方法转换为成分句法结构序列化编码;将文本语义信息编码及成分句法结构序列化编码共同输入编码器中进行整合编码;通过解码器对编码器传来的整合编码进行解码,生成文本摘要。能够把文本原有的语法结构提出来,用于监督文本摘要生成过程,解决了文本摘要准确性问题以及可读性问题。性问题。性问题。

【技术实现步骤摘要】
基于成分句法分析的中文摘要生成方法


[0001]本专利技术涉及信息处理
,尤其涉及一种基于成分句法分析的中文摘要生成方法。

技术介绍

[0002]国家自然科学基金包含了基础理论与应用基础理论研究工作的申报,是揭示自然界普遍规律、基本原理和自然现象运动本质的理论性工作。在基金申报书申报过程中,评审专家需要从海量申报书文本中高效、准确地获取有效信息,并做出评审。文本摘要技术旨在从大量的申报书文本数据中自动提取关键信息,可在一定程度上在专家评审过程起到辅助作用。然而,在基金申报书中包含了大量科研专业术语,现有的文本摘要模型难以充分挖掘并理解专业术语中包含的语义信息与语法结构信息,生成的摘要往往存在关键信息遗漏、覆盖不全面、语法不通顺等缺陷。
[0003]申报书文本大多篇幅较长,传统基于序列的文本摘要生成模型无法并行计算且并不关注文本语法信息,导致处理长文本时生成摘要主旨不显著且不符合语法规则。在文本摘要生成中,摘要不充分、准确,不符合人类的语言习惯是生成过程中面对的主要问题。若能通过获取到文本深层语义信息并引入句法结构信息,则整合后的编本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于成分句法分析的中文摘要生成方法,其特征在于,包括:对文档进行预处理,得到文本句子集;基于文本句子集,使用语义提取模型得到文本语义信息编码;基于文本句子集,生成每个句子的成分句法分析结构树,并将每个句子的成分句法分析结构树基于跨度的方法转换为成分句法结构序列化编码;将文本语义信息编码及成分句法结构序列化编码共同输入编码器中进行整合编码;通过解码器对编码器传来的整合编码进行解码,生成文本摘要。2.根据权利要求1所述的基于成分句法分析的中文摘要生成方法,其特征在于,所述语义提取模型采用PEGASUS模型。3.根据权利要求1所述的基于成分句法分析的中文摘要生成方法,其特征在于,采用Stanford CoreNLP生成每个句子的成分句法分析结构树。4.根据权利要求1或3所述的基于成分句法分析的中文摘要生成方法,其特征在于,所述将每个句子的成分句法分析结构树基于跨度的方法转换为成分句法结构序列化编码,包括:对于每个句子的成分句法分析结构树,递归地结合最右边的两个子节点,将其转换为一个右二叉树;将得到的右二叉树表示为一个跨度表;根据跨度表的右边界将其划分为n个部分,n为句子长度;二叉树中包含根节点在内的所有左孩子分布于n个部分,所有左孩子的右边界一一对应了[1,n]中的值,把所有左孩子的右边界作为序列化后的下标,而相应的左边界就作为序列化后的值,得到跨度表线性化后的成分句法结构序列化编码。5.根据权利要求1所述的基于成分句法分析的中文摘要生成方法,其特征在于,所述编码器采用基于注意力机制的语义结构编码器,其首先将文本语义信息编码及成分句法结构序列化编码进行融合,如下式所示:式中,表示编码器最终的隐藏状态,d表示成分句法结构序列化编码,h表示文本语义信息编码,为GLU激活函数,b表示偏移量,W表示可学习参数;编码器的注意力介质会根据当前时刻t的解码器输入来重新分配其他词语的注意力大小,并生成随当前词不断变化的上下文语义向量C
t
,注意力机制公式如下:,注意力机制公式如下:,注意力机制公式如下:式中,a
t,i
表示注意力权重,通过e
t,i
分数来计算;表示编码器的第i个隐藏状态,S
t
‑1表示解码器上一时刻t

1的隐藏状态,n表示句子长度,W
h
、V
h
均表示权重矩阵。6.根据权利要求5所述的基...

【专利技术属性】
技术研发人员:龙军李浩然刘磊向一平
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1