基于BERT和GAT的裁判文书争议焦点识别方法技术

技术编号:35840116 阅读:32 留言:0更新日期:2022-12-03 14:12
本发明专利技术公开基于BERT和GAT的裁判文书争议焦点识别方法,预处理待识别的裁判文书,获得具有文本语义联系的待识别标签特征P,包括:拆分文本获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2;将Data1和Data2输入到文本表征神经网络,获得文本表征;将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络,得到标签特征;对文本表征与标签特征关联的相似特征进行提取,获得基于文本语义联系的待识别标签特征P。本发明专利技术有效地处理长文本,引入图注意力神经网络对多标签进行关联性建模,识别与标签相关的信息,在每个法律文本中提取与对应标签相关的区别性信息。与对应标签相关的区别性信息。与对应标签相关的区别性信息。

【技术实现步骤摘要】
基于BERT和GAT的裁判文书争议焦点识别方法


[0001]本专利技术涉及基于BERT和GAT的裁判文书争议焦点识别方法,属于裁判文书中争议焦点的智能识别


技术介绍

[0002]随着人工智能技术的发展以及海量法律文本的公开,司法领域的人工智能研究与应用受到了广泛关注。在司法领域,案件的判决依赖专业的法律知识,而且其流程较复杂,同时,“案多人少”现象十分突出,司法从业人员工作量较大。通过裁判文书快速识别出案件争议焦点,作为制约审判效率的关键因素之一,一直没有显著的突破,导致案件审理效率难以提升。当前丰富的数据、相关算法的成熟和各类深度学习框架的涌现为法律人工智能的建设奠定了坚实的技术基础,把争议焦点的识别和检测转化为自然语言处理领域的多标签文本分类(MLTC)问题:将裁判文书视为包含案件信息的法律文本,争议焦点视为标签类别。这些争议焦点的准确识别与分类对于司法领域的实际业务具有重要的支撑作用,极大提高了工作效率,对法治建设具有重要的现实意义与必要性。
[0003]ꢀ“
Exploring the use of text 本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于BERT和GAT的裁判文书争议焦点识别方法,其特征在于,包括:预处理待识别的裁判文书,获得具有文本语义联系的待识别标签特征P,通过以下步骤实现:预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2;将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络,获得文本表征M;将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络,得到标签特征;对文本表征M与标签特征关联的相似特征进行提取,获得基于文本语义联系的待识别标签特征P;预先获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2,通过以下步骤实现:步骤1,待识别的裁判文书包括裁判文书的文本编号、案情描述、预先定义的标签类别和标签的个数;案情描述包括诉请和答辩内容;将列表形式的案情描述拼接成文本形式,获得文本;将文本中低于设定字数且包含的标签个数大于设定标签个数的文本剔除,得到裁判文书,C
i
表示第i个裁判文书,y
i
为第i个裁判文书包含的标签类别,,k表示所有预先定义的所有标签类别总数;基于诉辩双方,将第i个裁判文书拆分成文本一C
i1
和文本二C
i2
,文本一和文本二的标签相同;文本一及文本一对应的标签组成数据对,文本二及文本二对应的标签组成数据对;将文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对Data2输入到文本表征神经网络,获得文本表征M,通过以下步骤实现:文本表征网络包括孪生网络BERT模型和双向长短时记忆网络;步骤2,将Data1和Data2输入到孪生网络BERT模型中,生成Data1对应的文本向量T
CLS
1、Data1对应的具有上下文语义信息的词向量、Data2对应的文本向量T
CLS
2和Data2对应的具有上下文语义信息的词向量;将词向量T1输入到双向长短时记忆网络中,得到涵盖文本双向语义信息的文本H1={h
11
,h
21
,

,h
n1
};将词向量T2输入到双向长短时记忆网络中,得到涵盖文本双向语义信息的文本H2={h
12
,h
22
,

,h
n2
};将最大池化后的文本向量T
CLS
1和文本H1拼接,得到文本TH1;将最大池化后的文本向量T
CLS
2和...

【专利技术属性】
技术研发人员:陈先意刘艳艳钱郁滔付章杰闫雷鸣许娟
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1