【技术实现步骤摘要】
一种基于司法裁判文书的人员社交关系抽取方法
本专利技术属于司法数据处理领域,具体涉及一种基于司法裁判文书的人员社交关系抽取方法。
技术介绍
随着计算机技术的发展,数据处理及信息化已渗透进每一个领域。在司法信息化改革中,如何利用科学信息化技术辅助司法工作人员从海量的司法裁判文书、案件卷宗等文本资料中进行信息抽取和整理,已经成为司法信息化建设中的一个研究热点。司法裁判文书记载了人民法院审理过程和结果,其中包含大量的相关人员以及机构等司法实体。将司法裁判文书中司法实体之间复杂的社交关系抽取出来,有助于司法人员快速了解涉案人员及机构之间的关系;同时依据司法裁判文书中的相关信息以及其他背景信息,挖掘涉案人员潜在的社交关系,有助于司法工作者理清案件事实。现有技术中,尚无专门针对人员社交关系的数据处理。
技术实现思路
本专利技术实施例提供了一种基于司法裁判文书的人员社交关系抽取方法,基于预训练语言模型的词向量表示模型,提升模型的泛化性能以及复用性,提高人员社交关系抽取的准确率和召回率,支持司法工作人员快速理清裁判文书中 ...
【技术保护点】
1.一种基于司法裁判文书的人员社交关系抽取方法,其特征在于,所述抽取方法包括如下步骤:/n步骤S1,对所述司法裁判文书中的文本信息进行数据清洗、中文分词,并去掉停用词,得到分词后的裁判文书数据;/n步骤S2,基于所述分词后的裁判文书数据,构建基于预训练语言模型的词向量学习模型;/n步骤S3,采用所述裁判文书的词向量学习模型,表示司法实体共现网络中的每个实体,结合实体关联关系,抽取第一裁判文书特征;/n步骤S4,结合实体属性,抽取第二裁判文书特征;/n步骤S5,基于所述第一裁判文书特征和第二裁判文书特征,构建人员社交关系抽取模型;/n步骤S6,采用所述人员社交关系抽取模型,对 ...
【技术特征摘要】 【专利技术属性】
1.一种基于司法裁判文书的人员社交关系抽取方法,其特征在于,所述抽取方法包括如下步骤:
步骤S1,对所述司法裁判文书中的文本信息进行数据清洗、中文分词,并去掉停用词,得到分词后的裁判文书数据;
步骤S2,基于所述分词后的裁判文书数据,构建基于预训练语言模型的词向量学习模型;
步骤S3,采用所述裁判文书的词向量学习模型,表示司法实体共现网络中的每个实体,结合实体关联关系,抽取第一裁判文书特征;
步骤S4,结合实体属性,抽取第二裁判文书特征;
步骤S5,基于所述第一裁判文书特征和第二裁判文书特征,构建人员社交关系抽取模型;
步骤S6,采用所述人员社交关系抽取模型,对司法裁判文书中的人员社交关系进行抽取。
2.根据权利要求1所述的人员社交关系抽取方法,其特征在于,所述步骤S1包括:
步骤S101,对司法裁判文书中的文本信息进行数据清洗与存储;
步骤S102,基于清洗后的司法裁判文书数据构建法律专业词库和停用词表。
3.根据权利要求2所述的人员社交关系抽取方法,其特征在于,所述数据清洗,进一步为,删除裁判文书中内容为空或者描述字段过少、重复的文本数据;检测并修正裁判文书中的术语缩写、常见拼写错误;使用空格替换裁判文书中的全部特殊符号。
4.根据权利要求1所述的人员社交关系抽取方法,其特征在于,所述步骤S2包括:
步骤S201,对所述分词后的裁判文书进行句段分割,得到裁判文书编号、句子编号以及句子内容的三元组;
步骤S202,对所述三元组中的句子内容进行预处理,得到训练句子语料;
步骤S203,根据所述训练句子语料对预训练语言模型进行参数调整,得到词向量学习模型。
5.根据权利要求4所述的人员社交关系抽取方法,其特征在于,所述步骤S201中的句段分割,进一步为,设定总共包含n篇裁判文书,di表示第i篇裁判文书,裁判文书集合表示为:Dn={d1,d2,......,di,......,dn};对每篇裁判文书di,按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分;对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割;按照是否包含司法实体对分割后的句子进行筛选,包含司法实体则保留句子,不包含司法实体则删除句子;将保留的句子与裁判文书编号进行拼接,得到裁判文书编号、句子编号以及句子内容的三元组。
技术研发人员:万怀宇,林友芳,武志昊,韩升,王晶,张硕,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。