【技术实现步骤摘要】
法律文书案由识别方法及装置
本专利技术涉及数据处理领域,更具体的说,涉及法律文书案由识别方法及装置。
技术介绍
在大数据时代,通过对一个文本进行分门别类,几乎是所有领域都需要的做的基本工作。法律文书案由识别,实际上就是为用户给出的每个法律文书找到所属的案由类别。法律文书案由识别的传统方案,是先制定案由分类规则,再输入法律文书去匹配预先制定的案由分类规则,最后得出法律文书所属的案由类别,但这种方法费时费力且识别效果一般。在大数据时代背景下,通常可以借助机器学习的方法,利用训练好的分类模型来实现文本分类,从而节省大量的人工成本与时间成本。但是,现有的文本分类方案,并没有考虑到司法领域法律文书的特殊性,若直接采用现有的文本分类方案来识别法律文书所属的案由类别,则会导致识别结果准确性较低,识别效果较差。因此,目前迫切需要一种能够切实、有效地提高法律文书案由识别效果的技术方案。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的法律文书案由识别方法及装置 ...
【技术保护点】
1.一种法律文书案由识别方法,其特征在于,所述方法包括:/n获取目标法律文书;/n利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;/n所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。/n
【技术特征摘要】
1.一种法律文书案由识别方法,其特征在于,所述方法包括:
获取目标法律文书;
利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。
2.如权利要求1所述的方法,其特征在于,所述案由分类模型的训练过程包括:
获取历史法律文书与预设的案由图谱,所述案由图谱中包括多层级案由类别;
根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别;
将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型。
3.如权利要求2所述的方法,其特征在于,所述多层级案由类别至少包括父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;所述将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型包括:
将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
4.如权利要求2所述的方法,其特征在于,在所述根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别之后,所述案由分类模型的训练过程还包括:
获取所述历史法律文书的词向量,形成第一词集;
从所述第一词集中,删除停用词向量与单字词向量,形成第二词集;
从所述第二词集中,选取目标案由类别对应的高频词向量,形成所述目标案由类别对应的第三词集;其中,所述...
【专利技术属性】
技术研发人员:曾祥辉,陈冬梅,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。