一种基于图神经网络的法律文本摘要生成方法技术

技术编号:35675529 阅读:24 留言:0更新日期:2022-11-23 14:13
一种基于图神经网络的法律文本摘要生成方法,本发明专利技术涉及基于图卷积神经网络的生成式法律长文本摘要方法。本发明专利技术的目的是为了解决现有方法仅仅使用句子和词语的序列结构建模法律文本,忽略了法律文本的篇章结构信息的问题。过程为:首先将原来的长答案文本整理成带有图卷积的法律文本概念图,得到法律文本的篇章结构以更好地了解内部文本结构和概念相关性;之后按照设定方法得到预训练好的图神经网络的生成式法律文本摘要模型和初始化参数进行训练,得到训练好的图神经网络的生成式法律摘要模型和模型参数;本发明专利技术用于自然语言处理领域下的生成式法律文本摘要方法。领域下的生成式法律文本摘要方法。

【技术实现步骤摘要】
一种基于图神经网络的法律文本摘要生成方法


[0001]本专利技术属于自然语言处理领域。

技术介绍

[0002]在线搜索引擎是普通大众获取简单的法律问题答案的主要途径之一。然而在 线法律咨询中的问题答案通常是由领域专家书写的长文本,用户较难从搜索引擎 中返回的海量文档中找到精准的答案。为此,自动化生成长法律答案的摘要具有 很高的应用价值。针对答案长文本难以直接建模和摘要需和问题一致的挑战。
[0003]自动文本摘要通常可分为两类,分别是抽取式(extractive)和生成式 (abstractive)抽取式:广泛应用的有Textrank——原本用来计算网页之间的关 联性,后来被应用在句子上,句子之间反复传播,选出最关键的语句进行排序。 因为文章总有中心句,而textrank就试图找出这个中心句。抽取式缺点为主要考 虑单词词频,没有过多的语义信息,所以无法建立段落中的完整语义信息。
[0004]生成式摘要,需要通过转述、同义替换、句子缩写等生成。不少生成式神经 网络模型(neural

network

based abstractive summarizationmodel)在DUC

2004 测试集上已经超越了最好的抽取式模型。生成式神经网络模型的基本结构主要由 编码器(encoder)和解码器(decoder)组成,编码和解码都由神经网络实现。 编码器负责将输入的原文本编码成一个向量C(context),而解码器负责从这个 向量C提取重要信息、加工剪辑,生成文本摘要。这套架构被称作 Sequence

to

Sequence(以下简称Seq2Seq),被广泛应用于存在输入序列和输出 序列的场景,比如机器翻译(一种语言序列到另一种语言序列)、imagecaptioning (图片像素序列到语言序列)、对话机器人(如问题到回答)等。
[0005]Seq2Seq架构中的编码器(Encoder)和解码器(Decoder)通常由递归神经网络 (RNN)或卷积神经网络(CNN)或者LSTM实现。生成式缺点是原文本长度 过长的话,效果就会不太好。由于“长距离依赖”问题,RNN到最后一个时间 步输入单词的时候,已经丢失了相当一部分的信息。这时候编码生成的语义向量 C同样也丢失了大量信息,就导致生成的摘要不够准确。
[0006]生成答案的摘要,有利于读者快速获取精准信息,也能够帮助搜索引擎获得 更好的用户体验。大多数由领域专家书写的答案都非常长,大部分都超过512 个字,主要挑战如下:
[0007]1)由于输入的答案超长,传统的基于sequence

to

sequence的方法难以捕获 长句依赖信息;
[0008]2)生成的摘要需要保证和问题的一致性,避免生成和问题无关的信息。
[0009]3)对于相同的问题,专家会从不同的方面书写答案,答案本身具有多样性。
[0010]基于图的结构可以更好地表示答案中各种概念之间的相关性,并学习整个文 本的表示。

技术实现思路

[0011]本专利技术提出一种基于图神经网络的法律文本摘要生成方法。该算法步骤如下:
[0012](1)步骤一:问题定义以及整体算法结构。
[0013](2)步骤二:法律知识图谱构建。
[0014](3)步骤三:结点初始化。
[0015](4)步骤四:图卷积网络生成摘要。
附图说明
[0016]附图1为算法整体结构。附图2为不同算法训练结果对比图。附图3为本算法stage参数设置。附图4为本算法模块1训练参数设置。附图5为本算法模块2训练参数设置。附图6为不同算法的实验结果对比。附图7为不同算法实验运行时间对比。
具体实施方式
[0017]步骤一:问题定义以及整体算法结构。A表示一个包含几个句子 [s1,s2,s3,

,s
m
]的问题答案,其中s
i
是答案中的第i个句子,Q表示输入的问题。 任务是生成一个抽象的与输入问题Q最相关的A的摘要。附图1为算法整体结构。
[0018]步骤二:法律知识图谱构建。用法律答案构建法律概念图,将法律概念定义 为法律实体的短语/词或作为文本重要组成部分的关键字。对于法律数据集中每 一条法条及根据传统的法律文本篇章结构,构建法律篇章结构知识图谱。首先使 用Stanford Parser将自然问句N转换为句法依存树Y。由于在线下部分已经 建立了关系指称词典,即每一个词都可能被不同的关系指称所包含,所以在关系 优先框架中,对于Y中每一个词(节点)w
i
,先找到所有包含w
i
的关系指 称,然后使用深度优先搜索算法来遍历Y中以w
i
为根的子树,并判断这个子 树是否与当前关系指称一一匹配。
[0019]如果一个关系指称中所有的字都在子树中出现,那么认为找到一个匹配的句 法依存子树y,这个关系指称也是符合自然问句N的。当得到关系指称之后, 就需要找到与这个关系指称相联系的主语和宾语节点。根据统计分析,基于句法 树中边的词性,而统计出属于“subject

like”的边,与“object

like”的边。
[0020]分析关系指称与句法依存树,若在依存子树y中有点w是可以被匹配为 类/实体,则认为这个w是关系指称的一个主语;否则,观察w与它的子节点 中,是否被subject

like的边相连,若是的话,这个子节点就是这个关系指称 的主语。
[0021]同理,若w与子节点被object

like的边相连,那么关系指称的宾语就是 这个子节点。如果经过这种规则处理,找不到对应的主语/宾语,那么就需要应 用一些高阶规则。
[0022]步骤三:结点初始化。用向量u
i
对法律概念图中的顶点进行编码。首先,利 用基于多头自注意力的顶点编码器。这个顶点编码器由两个模块组成,分别是 embedding模块和自注意力模块。通过共享嵌入查找表采用单词和概念的常规单 词嵌入来表示单词信息。正
则词是指概念词以外的词。此外还添加了绝对和相对 位置嵌入p
iabsolute
,p
irelative
来表示位置信息。p
iabsolute
旨在编码答案中单词和概念的 绝对位置。为了更好地学习相对位置嵌入,在单词序列前面提出了概念w。这样, 概念的相对位置嵌入就有相同的嵌入p0。添加词嵌入w
i
和位置嵌入 p
iabsolute
,p
irelative
得到最终的嵌入u
i
,形式上:
[0023]u
i
=w
i
+p
iabsolute<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的法律文本摘要生成方法,包括以下步骤:步骤一:问题定义以及整体算法结构;A表示一个包含几个句子[s1,s2,s3,

,s
m
]的问题答案,其中s
i
是答案中的第i个句子,Q表示输入的问题;任务是生成一个抽象的与输入问题Q最相关的A的摘要;附图1为算法整体结构;步骤二:法律知识图谱构建;用法律答案构建法律概念图,将法律概念定义为法律实体的短语/词或作为文本重要组成部分的关键字;对于法律数据集中每一条法条及根据传统的法律文本篇章结构,构建法律篇章结构知识图谱;首先使用Stanford Parser将自然问句N转换为句法依存树Y;由于在线下部分已经建立了关系指称词典,即每一个词都可能被不同的关系指称所包含,所以在关系优先框架中,对于Y中每一个词(节点)w
i
,先找到所有包含w
i
的关系指称,然后使用深度优先搜索算法来遍历Y中以w
i
为根的子树,并判断这个子树是否与当前关系指称一一匹配;如果一个关系指称中所有的字都在子树中出现,那么认为找到一个匹配的句法依存子树y,这个关系指称也是符合自然问句N的;当得到关系指称之后,就需要找到与这个关系指称相联系的主语和宾语节点;根据统计分析,基于句法树中边的词性,而统计出属于“subject

like”的边,与“object

like”的边;分析关系指称与句法依存树,若在依存子树y中有点w是可以被匹配为类/实体,则认为这个w是关系指称的一个主语;否则,观察w与它的子节点中,是否被subject

like的边相连,若是的话,这个子节点就是这个关系指称的主语;同理,若w与子节点被object

like的边相连,那么关系指称的宾语就是这个子节点;如果经过这种规则处理,找不到对应的主语/宾语,那么就需要应用一些高阶规则;步骤三:结点初始化;用向量u
i
对法律概念图中的顶点进行编码;首先,利用基于多头自注意力的顶点编码器;这个顶点编码器由两个模块组成,分别是embedding模块和自注意力模块;通过共享嵌入查找表采用单词和概念的常规单词嵌入来表示单词信息;正则词是指概念词以外的词;此外还添加了绝对和相对位置嵌入p
iabsolute
,p
irelative
来表示位置信息;p
iabsolute
旨在编码答案中单词和概念的绝对位置;为了更好地学习相对位置嵌入,在单词序列前面提出了概念w;这样,概念的相对位置嵌入就有相同的嵌入p0;添加词嵌入w
i
和位置嵌入p
iabsolute
,p
irelative
得到最终的嵌入u
i
,形式上:u
i
=w
i
+p
iabsolute
+p
irelative
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)之后,将u
i
输入self

attention模块以获得每个单词的隐藏表示a
i
;Self

attention可以显式地对单词之间的交互进行建模以捕获顶点的上下文;使用公式(2)到公式(4)计算自注意力层的隐藏表示,其中Q、K和V分别表示查询、键和值向量;Attention(Q,K,V)=softmax(QK
T
)V
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)MultiHead(Q,K,V)=[head1;

;head
h
]W
o
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)而概念w是顶点的重要信息,采用概念a0的表示来表示整个顶点;步骤四:图卷积网络生成摘要,具体步骤如下:

获取节点表示;具体过程为:对于全局节点和关系节点,从一个随机初始化的词嵌入矩阵中获得对应的全局节点和
关系节点的初始表示h
i0
;对于句子节点,一个法律文本包含了|U|个句子,其中第i个句子u
i
被表示为u
i1
,u
i2


,u
i|U|
,每一项代表了第i个句子中的第j个词语,每一个句子u
i
都对应一个说话人p
i
,p
i
∈P,P是说话人集合;对于句子节点,使...

【专利技术属性】
技术研发人员:周焕来李家伟唐小龙张博阳邢增桓黄婧贾海涛王俊
申请(专利权)人:一拓通信集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1