【技术实现步骤摘要】
一种争议焦点体系构建与识别方法
[0001]本专利技术涉及自然语言处理领域和裁判文书中有关争议焦点的研究领域,主要是涉及争议焦点知识体系构建,及在小样本情况下快速、精准地实现争议焦点识别。
技术介绍
[0002][0003]较早的争议焦点知识体系主要依赖于法律专家从大量的裁判文书中归纳总结争议焦点知识体系。虽然取得了阶段性的成果,但是它必须依靠纯人工的方式来梳理争议焦点知识体系,需要耗费大量法律专家和知识工程师的参与,具有梳理的争议焦点知识体系不全面,时间周期较长,成本较高的缺点。随着机器学习技术的发展,出现了一些基于无监督聚类加法律专家归纳总结的方法,可以辅助法律专家归纳总结争议焦点知识体系,从而减少争议焦点知识体系构建的人力和时间成本。但是单纯的无监督聚类的效果不太理想,对法律专家梳理知识体系的辅助能力有限。因此,如何提升无监督聚类的效果,更好的辅助法律专家归纳争议焦点知识体系成为争议焦点知识体系构建的重要研究方向。
[0004]在争议焦点识别方面。较早的争议焦点识别主要依赖法律专家和知识工程师人工制定识别规则,即当文本内容满足了一定的条件,则认为存在相应的争议焦点。虽然取得了阶段性的成果,但是它必须依靠人工的方式来制定争议焦点提取规则,需要大量法律专家和知识工程师的参与。随着机器学习技术的发展,出现了一些基于有监督分类和无监督聚类的案件特征提取方法。作为分类方法的两大分支,有监督分类和无监督聚类都有各自的优缺点。对于有监督分类来说,因为存在大量有类别标记的样本作为监督学习信息,训练得到的分类模型对于未标 ...
【技术保护点】
【技术特征摘要】
1.一种争议焦点体系构建与识别方法,其步骤包括:1)对裁判文书集中的每一裁判文书进行分段处理,得到裁判文书的事实认定段和裁判说理段集合D;2)从所述事实认定段和裁判说理段集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段,得到蕴含争议焦点的数据集D1;从所述数据集D1中提取争议焦点语句,得到争议焦点数据集D2;3)对所述争议焦点数据集D2进行聚类,形成争议焦点语句聚类簇;4)结合相关法律知识对聚类结果进行归纳总结,形成多层级争议焦点知识体系;5)结合所述多层级争议焦点知识体系对裁判文书集中的裁判文书进行标注,得到争议焦点知识体系识别模型;6)当给定一篇裁判文书A,提取该裁判文书A中的争议焦点语句并将其输入所述争议焦点知识体系识别模型,识别出该裁判文书A的争议焦点。2.根据权利要求1所述的方法,其特征在于,构建争议焦点知识体系识别模型的方法为:51)结合所述多层级争议焦点知识体系对裁判文书集中的一部分裁判文书进行标注,标注的数据集记为A
k
;52)根据数据集A
k
及Ernie预训练模型生成争议焦点中心向量:对第l个标签,获取数据集A
k
中具有该第l了标签的p
kl
个争议焦点标注数据,对应的争议焦点内容集合记为L为标签总数;利用Ernie预训练模型对C
kl
数据集中的样本生成表示向量并求均值,获得第l个标签的中心点向量计算中心向量到第l个标签下各争议焦点向量的距离,取最大值作为第l个标签的阈值λ
kl
;53)对未标注的争议焦点数据集进行标注,分为粗标注和精标注:首先通过Ernie预训练模型将未标注文本转化为向量,争议焦点文本数据对应的向量记为然后计算向量和案由k下所有标签的中心向量的余弦距离,按距离进行排序,筛选距离最小的前n个中心向量对应的标签作为第一轮标签识别,距离记作d1,
…
,d
n
,对应的标签记为l1,
…
,l
n
,此过程记作粗标注;然后基于粗标注的结果进行精标注,对于选中的n个标签,通过计算n个标签对应的阀值与粗标注中计算得到的距离d1,
…
,d
n
做差并除以阀值,得到若θ
j
均小于0,则认为当前争议焦点文本数据不蕴含标签l
j
,若存在θ
j
大于或等于0,则选取θ
j
最大值所对应的标签作为当前争议焦点文本数据的标签;最终争议焦点数据集F
k
中的文本被打上0个或者1个标签;54)通过对步骤53)得到的标注数据进行校验,重新生成各个标签的中心点向量及其阈值,采用53)中粗标注和精标注方式,对新增争议焦点文本进行标注,得到争议焦点知识体系识别模型。3.根据权利要求1或2所述的方法,其特征在于,按照设定的分段规则每一裁判文书进行分段处理;其中,事实认定段的分段规则包括:“经.{0,20}(审查|审理|侦查)(查明|认定)[::,、。]”、“本院经...
【专利技术属性】
技术研发人员:魏芸菲,吴正午,胡亚谦,刘贤艳,孙晓锐,谭晓颖,
申请(专利权)人:中国司法大数据研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。