一种争议焦点体系构建与识别方法技术

技术编号:38020441 阅读:10 留言:0更新日期:2023-06-30 10:47
本发明专利技术公开了一种争议焦点体系构建与识别方法。本方法步骤包括:1)对裁判文书集中的每一裁判文书进行分段处理,得到裁判文书的事实认定段和裁判说理段集合D;2)从集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段,得到蕴含争议焦点的数据集D1;从数据集D1中提取争议焦点语句,得到争议焦点数据集D2;3)对数据集D2进行聚类,形成争议焦点语句聚类簇;4)结合相关法律知识对聚类结果进行归纳总结,形成多层级争议焦点知识体系;5)结合知识体系对裁判文书集中的裁判文书进行标注,得到争议焦点知识体系识别模型;6)当给定一篇裁判文书A,提取裁判文书A中的争议焦点语句并将其输入该模型,识别出裁判文书A的争议焦点。识别出裁判文书A的争议焦点。识别出裁判文书A的争议焦点。

【技术实现步骤摘要】
一种争议焦点体系构建与识别方法


[0001]本专利技术涉及自然语言处理领域和裁判文书中有关争议焦点的研究领域,主要是涉及争议焦点知识体系构建,及在小样本情况下快速、精准地实现争议焦点识别。

技术介绍

[0002][0003]较早的争议焦点知识体系主要依赖于法律专家从大量的裁判文书中归纳总结争议焦点知识体系。虽然取得了阶段性的成果,但是它必须依靠纯人工的方式来梳理争议焦点知识体系,需要耗费大量法律专家和知识工程师的参与,具有梳理的争议焦点知识体系不全面,时间周期较长,成本较高的缺点。随着机器学习技术的发展,出现了一些基于无监督聚类加法律专家归纳总结的方法,可以辅助法律专家归纳总结争议焦点知识体系,从而减少争议焦点知识体系构建的人力和时间成本。但是单纯的无监督聚类的效果不太理想,对法律专家梳理知识体系的辅助能力有限。因此,如何提升无监督聚类的效果,更好的辅助法律专家归纳争议焦点知识体系成为争议焦点知识体系构建的重要研究方向。
[0004]在争议焦点识别方面。较早的争议焦点识别主要依赖法律专家和知识工程师人工制定识别规则,即当文本内容满足了一定的条件,则认为存在相应的争议焦点。虽然取得了阶段性的成果,但是它必须依靠人工的方式来制定争议焦点提取规则,需要大量法律专家和知识工程师的参与。随着机器学习技术的发展,出现了一些基于有监督分类和无监督聚类的案件特征提取方法。作为分类方法的两大分支,有监督分类和无监督聚类都有各自的优缺点。对于有监督分类来说,因为存在大量有类别标记的样本作为监督学习信息,训练得到的分类模型对于未标注样本的预测准确性较高。但在司法领域中,有类别标记的数据却不多,手工对无类别标记的数据进行人工标定需要耗费大量的人力与物力。对无监督聚类来说,它不需要知道数据的类别标签,然而,由于缺少先验信息的指导,其性能还有待于进一步提高。在这种情况下,基于少量标注数据和大量未标记数据的半监督学习应运而生。
[0005]因此,在本专利技术中,我们利用基于解语知识标注的文本聚类方法及半监督文本聚类方式,分别实现争议焦点知识体系构建和争议焦点识别,克服了传统争议焦点知识体系构建存在人工量较大问题,实现了在较少标注数据情况下争议焦点的精准识别。

技术实现思路

[0006]本专利技术是一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法,包括争议焦点文本内容提取与拆分,并利用解语知识标注实现争议焦点聚类,法律专家基于聚类结果实现各个案由下争议焦点标签体系的构建。基于构建的争议焦点知识体系,利用半监督聚类方法,构建争议焦点识别模型,实现争议焦点标签地精准识别。
[0007]基于上述所述,本专利技术提供了一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法,主要包含:
[0008]S1:对公开裁判文书集进行分段处理,得到裁判文书的事实认定段和裁判说理段
集合;
[0009]S2:利用争议焦点识别规则,对S1中的事实认定段和裁判说理段集合进行判断,筛选出蕴含争议焦点的事实认定段和裁判说理段,并利用争议焦点拆分规则,得到裁判文书中的争议焦点语句集合,形成事实认定和裁判说理端的争议焦点库;
[0010]S3:利用解语知识标注和聚类方法,对S2中形成的争议焦点语句进行聚类,形成争议焦点语句聚类簇;
[0011]S4:法律专家和知识工程师结合相关法律知识,对S3输出的聚类结果进行归纳总结,形成多层级争议焦点知识体系;
[0012]S5:对S4中形成的争议焦点知识体系进行少量样本标注,并采用解语知识标注和半监督聚类方法,生成争议焦点标签的中心向量,构建争议焦点知识体系识别模型;
[0013]S6:当给定一篇裁判文书,采用S2中所述的争议焦点方法和S5中构建的争议焦点知识体系识别模型,实现文书中争议焦点标签地精准识别。争议焦点知识体系识别模型为一个标注文本集合;对于一裁判文书A,提取其中的争议焦点语句,若返回结果为空,则表示不含争议焦点;若返回结果不为空,则将返回结果输入所述争议焦点知识体系识别模型,计算该返回结果与所述争议焦点知识体系识别模型中每一标注文本的相似度,将相似度最大的标注文本的标签作为该裁判文书A的争议焦点。
[0014]进一步的,所述S1中,对公开的裁判文书集采用如下表所示的分段规则进行分段处理:
[0015][0016][0017]抽取文书中事实认定段和裁判说理段,由此构造出数据集:
[0018][0019]其中X
i
表示第i篇文书对应的事实认定段和裁判说理段,其中i=1,

,N,N为样本总数。事实认定段表示在文书中法院审理查明部分,裁判说理段表示文书中本院认为段,并去除最后的裁判结果部分。
[0020]进一步的,所述S2中具体包含如下步骤:
[0021]根据法官描述争议焦点常用词,构建争议焦点识别规则,并根据此规则对数据集D
进行识别,筛选出只蕴含争议焦点的数据集D1;
[0022]对数据集D1,利用下表中的争议焦点拆分规则,构建蕴含争议焦点语句集合D2。
[0023][0024]进一步的,所述S3中,具体包含如下的步骤:
[0025]对S2中的争议焦点数据集D2,利用jieba分词工具对数据集D2进行分词,并使用Ernie方法生成争议焦点内容的表示向量集合D3;
[0026]利用解语知识标注对争议焦点向量集合D3进行权重调整,即对于人物类实体、时间类实体、场景事件类实体、数量词、肯定词、否定词等无用干扰实体降低权重,而对于人物类概念实体、药物类实体等重点实体提高权重,并利用BOW句向量生成模型,构建包含解语知识增强的争议焦点向量集合D4;
[0027]从集合D4中选取m个争议焦点向量,根据争议焦点的数量m自动生成聚类簇数,其中聚类簇数的设置为:
[0028][0029]其中表示向下取整;
[0030]基于m个表示向量以及聚类簇数n_clusters,通过k均值聚类算法对争议焦点进行聚类,输出每个案由下争议焦点的聚类结果。
[0031]进一步的,S3中所述的解语知识标注是拥有可描述所有中文词汇的词类体系、中文知识标注工具集,以及更适用于中文挖掘任务的预训练语言模型,并能够有效地利用知识增强机器学习模型效果;
[0032]进一步的,所述S4中,首先将S3步骤中生成的聚类结果导入到标注平台中,法律专家结合相关法律知识,利用标注平台更加快捷、方便、完备地进行归纳、总结、梳理争议焦点知识体系。
[0033]进一步的,所述S5中具体包含如下步骤:
[0034]根据S4中的争议焦点知识体系,标注少量样本数据,标注的数据集记为A
k
,其中k代表案由编号。
[0035]根据小样本标注数据集A
k
及Ernie预训练模型生成争议焦点中心向量,具体的扩展步骤如下:
[0036]采用Ernie预训练模型生成每个标签的表示向量。基于法律专家提供的小样本标注数据集,对每个标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种争议焦点体系构建与识别方法,其步骤包括:1)对裁判文书集中的每一裁判文书进行分段处理,得到裁判文书的事实认定段和裁判说理段集合D;2)从所述事实认定段和裁判说理段集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段,得到蕴含争议焦点的数据集D1;从所述数据集D1中提取争议焦点语句,得到争议焦点数据集D2;3)对所述争议焦点数据集D2进行聚类,形成争议焦点语句聚类簇;4)结合相关法律知识对聚类结果进行归纳总结,形成多层级争议焦点知识体系;5)结合所述多层级争议焦点知识体系对裁判文书集中的裁判文书进行标注,得到争议焦点知识体系识别模型;6)当给定一篇裁判文书A,提取该裁判文书A中的争议焦点语句并将其输入所述争议焦点知识体系识别模型,识别出该裁判文书A的争议焦点。2.根据权利要求1所述的方法,其特征在于,构建争议焦点知识体系识别模型的方法为:51)结合所述多层级争议焦点知识体系对裁判文书集中的一部分裁判文书进行标注,标注的数据集记为A
k
;52)根据数据集A
k
及Ernie预训练模型生成争议焦点中心向量:对第l个标签,获取数据集A
k
中具有该第l了标签的p
kl
个争议焦点标注数据,对应的争议焦点内容集合记为L为标签总数;利用Ernie预训练模型对C
kl
数据集中的样本生成表示向量并求均值,获得第l个标签的中心点向量计算中心向量到第l个标签下各争议焦点向量的距离,取最大值作为第l个标签的阈值λ
kl
;53)对未标注的争议焦点数据集进行标注,分为粗标注和精标注:首先通过Ernie预训练模型将未标注文本转化为向量,争议焦点文本数据对应的向量记为然后计算向量和案由k下所有标签的中心向量的余弦距离,按距离进行排序,筛选距离最小的前n个中心向量对应的标签作为第一轮标签识别,距离记作d1,

,d
n
,对应的标签记为l1,

,l
n
,此过程记作粗标注;然后基于粗标注的结果进行精标注,对于选中的n个标签,通过计算n个标签对应的阀值与粗标注中计算得到的距离d1,

,d
n
做差并除以阀值,得到若θ
j
均小于0,则认为当前争议焦点文本数据不蕴含标签l
j
,若存在θ
j
大于或等于0,则选取θ
j
最大值所对应的标签作为当前争议焦点文本数据的标签;最终争议焦点数据集F
k
中的文本被打上0个或者1个标签;54)通过对步骤53)得到的标注数据进行校验,重新生成各个标签的中心点向量及其阈值,采用53)中粗标注和精标注方式,对新增争议焦点文本进行标注,得到争议焦点知识体系识别模型。3.根据权利要求1或2所述的方法,其特征在于,按照设定的分段规则每一裁判文书进行分段处理;其中,事实认定段的分段规则包括:“经.{0,20}(审查|审理|侦查)(查明|认定)[::,、。]”、“本院经...

【专利技术属性】
技术研发人员:魏芸菲吴正午胡亚谦刘贤艳孙晓锐谭晓颖
申请(专利权)人:中国司法大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1