一种基于语言图模型的法案智能分析方法及系统技术方案

技术编号:39842474 阅读:8 留言:0更新日期:2023-12-29 16:29
本发明专利技术公开了一种基于语言图模型的法案智能分析方法及系统,包括

【技术实现步骤摘要】
一种基于语言图模型的法案智能分析方法及系统


[0001]本专利技术涉及计算机软件及大数据处理
,尤其是一种基于语言图模型的法案智能分析方法及系统


技术介绍

[0002]当今,随着法律事务的复杂性和数量的增加,以及技术的不断发展,越来越多的人开始寻找自动化和智能化的解决方案来解决他们的法律问题

现有方法主要依赖于法律从业人员进行案例分析,传统计算机技术如文本检索

同义词分析等只能实现简单比对

辅助查找等功能,且操作步骤较为复杂,对案例分析效率非常有限

当下以
ChatGPT
为代表的语言大模型掀起新时代的技术范式,为法学案例的分析工作带来新的可能

大模型可以从认知层面理解案例内容,并为法律从业人员提供全新的人机交互模式,从而降低人工智能在法律行业的使用门槛,大大提升法律从业人员的处理效率

[0003]近年来,预训练模型在自然语言处理领域蓬勃发展,但主流预训练模型大多针对英文领域,中文领域起步较晚

中文和英文作为全世界使用频次最高的两种语言,且鉴于中文在自然语言处理过程中的重要性,学术界和工业界都开展了广泛的研究,提出了众多的中文预训练模型

与英文预训练模型不同的是,中文和英文语言本质上存在差异,中文文本常由多个连续的字符组成,词与词之间没有明显的分隔符,因此在单一语料英文数据集上进行训练的预训练模型,例如
BERT/>,在处理常见中文任务上往往表现不佳

为了解决以上问题,研究团队提出了修改分词方式和掩码方式

融入外部信息的预训练

特定领域的预训练等方案,提出了主要基于
Transformer

BERT
两种基础模型的中文预训练模型,如
MacBERT、ERNIE、RoBERTa
等,在多个自然语言处理任务中都能够取得较好结果

[0004]随着日益增长的法律咨询需求以及自然语言处理技术发展,利用中文自然语言预训练模型对法学案例进行文本分类及相似度分析成了一个亟待解决的课题

现存的中文预训练模型大多是针对普适性的大规模语料库,而针对特定领域的预训练模型发展起步较晚,实际运用中未得到彻底利用

法学案例具有可提取特征多

数据规模大等特点,通过分析已有的案例语料库,可以总结出同类型案例的共通处,从而进行相似案例的推荐

[0005]法学领域是一个涉及多种类型

长文本

专业知识的领域,对于自然语言处理任务来说,具有很高的挑战性和价值,例如法律案例检索

判决预测

法律问答等任务,都需要模型能够理解和分析法学案例文本,并进行相似案例推荐

目前的预训练语言模型虽然在通用领域取得了很好的效果,但是在法学领域仍然存在以下三方面的问题:
[0006](

)
长度限制问题

由于主流
PLM
的输入长度限制为
512

token
,如果要处理更长的文档,就需要对文档进行截断或拼接,这会导致信息的丢失或混乱

例如,如果一个案例文本包含了多个方面的内容,如事实

理由

判决等,那么截断或拼接后,可能会破坏文本的结构和逻辑,使模型无法正确地理解和分析文本

因此,需要一种能够处理更长序列的模型,来保留文本的完整性和连贯性

[0007](

)
领域适应问题

由于法学领域文本与通用领域文本有很大的差异,例如使用
了大量的专业术语

法条引用

逻辑推理等,这些内容可能在通用领域语料中很少出现或没有出现

因此,直接使用在通用领域语料上预训练的模型,可能会导致模型缺乏法学领域的知识和能力,无法准确地处理法学领域的任务

因此,需要一种能够适应法学领域特点和需求的模型,来提高模型的泛化能力和效果

[0008](

)
知识融合问题

由于法学领域文本不仅包含了自身的文本信息,还与外部的知识库有着紧密的联系,例如一个案例文本可能涉及到多个相关的法条

案例

原则等

这些外部知识可以为文本提供更多的背景和参考,帮助模型更好地理解和分析文本

然而,目前的
PLM
主要依赖于文本自身的信息,很少利用外部知识来增强模型的能力

因此,需要一种能够从外部知识库中获取和融合相关知识的模型,来提升模型对文本的理解和分析能力


技术实现思路

[0009]针对现有技术存在的问题,本专利技术的目的在于提供一种基于语言图模型的法案智能分析方法及系统,采用新的
GPT
图神经网络方法构建法律知识图谱,使用大量案例

推理数据对法律知识图谱进行学习训练,解决具体案例文本与相关法律条文

规则的知识融合问题,获得了向用户快速提供法学案例特征提取和匹配等服务的突出效果

[0010]为实现上述目的,本专利技术提供一种基于语言图模型的法案智能分析方法,所述方法包括
GPT
语言处理

图神经网络特征优化和下游任务利用三个步骤;其中:
[0011]GPT
语言处理步骤中,采用具有自注意力机制的深度学习模型
Transformer
网络将输入的法律文本转换为计算机能够处理的高维特征向量;
[0012]图神经网络特征优化步骤中,进一步优化和提升
GPT
语言处理模块产生的高维特征向量,通过构建语义和知识关系实现节点之间的连接,从而生成法案语义特征,将文本数据转化为图形表示;
[0013]下游任务利用步骤中,接收图神经网络特征优化步骤中的图形表示作为输入,然后输出相应的结果,从而实现对法律文本的理解和处理,以及进行法律案例分析

[0014]进一步,所述下游任务包括法案理解

法案摘要

法案撰写

法案合规

法案模拟和法案管理

[0015]进一步,
GPT
语言处理模块通过无监督的预训练模型,基于
GPT
‑2框架,执行有监督的任务,其核心在于语言建模,语言建模是无监督分布估计的一种形式
...

【技术保护点】

【技术特征摘要】
1.
一种基于语言图模型的法案智能分析方法,其特征在于,所述方法包括
GPT
语言处理

图神经网络特征优化和下游任务利用三个步骤;其中:
GPT
语言处理步骤,采用具有自注意力机制的深度学习模型
Transformer
网络将输入的法律文本转换为计算机能够处理的高维特征向量;图神经网络特征优化步骤,进一步优化和提升
GPT
语言处理模块产生的高维特征向量,通过构建语义和知识关系实现节点之间的连接,从而生成法案语义特征,将文本数据转化为图形表示;下游任务利用步骤,接收图神经网络特征优化步骤中的图形表示作为输入,然后输出相应的结果,从而实现对法律文本的理解和处理,以及进行法律案例分析
。2.
根据权利要求1所述的基于语言图模型的法案智能分析方法,其特征在于,所述下游任务包括法案理解

法案摘要

法案撰写

法案合规

法案模拟和法案管理
。3.
根据权利要求1所述的基于语言图模型的法案智能分析方法,其特征在于,
GPT
语言处理模块通过无监督的预训练模型,基于
GPT
‑2框架,执行有监督的任务,其核心在于语言建模,语言建模是无监督分布估计的一种形式,自然语言文本由一组由可变长度的字或词组成的序列数据;语言自然地按顺序排列,将符号上的联合概率分解为条件概率的乘积:其中,
p(s)
为语言模型生成语句
s
的概率;语句
s
经过分词后长度为
N
;上式中的条件概率表示,给定语言模型前
i

1(2≤i≤N)
个词
s1,

,s
i
‑1时,语言模型会给出第
i
个词的概率估计
p(s
i
|s1,

,s
i
‑1)。4.
根据权利要求3所述的基于语言图模型的法案智能分析方法,其特征在于,对标准的
Transformer
模型的子块做如下修改:将每层的层正则化放到每个子块之前,并且在最后自注意区后添加了层正则化层;上下文大小扩大到
1024

token
,同时使用
512

batchsize。5.
根据权利要求4所述的基于语言图模型的法案智能分析方法,其特征在于,
GPT
语言处理步骤中,在文本输入模型前,进行量化处理;对文本进行分词后,构建词库,再将
token
映射为
ID
,量化处理的步骤如下:将输入的中文文本转化为
Unicode
;去除一些无法表示的字符,同时将空白符转化为可见的空格字符;之后在中文字符前后加上空格,通过空格分词
。6.
根据权利要求5所述的基于语言图模型的法案智能分析方法,其特征在于,
Transformer
中使用自注意力机制,在输入时处理长序列句子,对依赖关系建模,将一个序列的不同位置串联起来,使得每个词重构时都能够对自身以及其他词建立权重依赖;计算权重的过程包括:每个词向量都映射为一个
query
向量
q
i
和一个
key
向量
k
i
,计算
q
i<...

【专利技术属性】
技术研发人员:江润雪张铭姿
申请(专利权)人:浙江师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1