【技术实现步骤摘要】
基于相关性图学习的案由分类方法及系统
[0001]本专利技术涉及案由分析分类
,特别是涉及基于相关性图学习的案由分类方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]案由是指法律案件的具体内容或者具体事项,案由分析分类是指对一条案由进行分析,然后准确地得到这条案由所属的类别。如今,我国每年约产生几千万条案件,很多情况下都是靠法务工作者去对案件进行分类的,这样需要耗费巨大的人力和物力,而且分类结果往往会存在一定的误差。为了摆脱使用人工对法律案件进行分类的现状,引入了使用计算机来对法律案件进行分类的方法,使用计算机来对案由进行分类可以大大提高分类的速度和精度。因此,专利技术一种案由分析分类系统对于提高案由分类的精度和效率具有极为重要的意义。
[0004]现有的专利和发表的论文中,大家都是用自然语言处理(NLP)的方法来完成对案由的分析分类,常用的自然语言处理方法有:TextCNN、HBiGRU、HBiLSTM等。自然语言处理的方法得到 ...
【技术保护点】
【技术特征摘要】
1.基于相关性图学习的案由分类方法,其特征是,包括:获取待分类的案由;对待分类的案由进行处理,获得待分类案由的特征向量;从每个已知案由分类标签对应的K个聚类中心中,随机抽取N个聚类中心,得到每个已知案由分类标签对应的N个聚类中心;基于M种已知案由分类标签对应的已抽取的M*N个聚类中心,和待分类案由的特征向量,构建构造图;其中,K、M和N均为正整数;将构造图,输入到训练后的图卷积神经网络中,得到待分类案由的分类结果。2.如权利要求1所述的基于相关性图学习的案由分类方法,其特征是,对待分类的案由进行处理,获得待分类案由的特征向量;具体包括:对待分类的案由去除标点符号;将去除标点符号后的文本进行分词处理;将分词后的结果进行词频统计;将词频统计后的词汇,按照词频从大到小的顺序进行排序;按照排序后的词频,给每个单词分配一个数字ID编码;将所有数字ID编码按照词频排序的顺序进行拼接,得到待分类案由的向量;对待分类案由的向量,提取特征向量。3.如权利要求1所述的基于相关性图学习的案由分类方法,其特征是,从每个已知案由分类标签对应的K个聚类中心中,随机抽取N个聚类中心,得到每个已知案由分类标签对应的N个聚类中心;其中K个聚类中心,是通过如下步骤获取的:对每个已知案由分类标签的案由进行处理,得到每个已知案由分类标签的案由特征向量;将每类已知案由分类标签的所有案由特征向量进行聚类,得到每类已知案由分类标签的K个聚类中心。4.如权利要求3所述的基于相关性图学习的案由分类方法,其特征是,聚类采用K
‑
means聚类;每个聚类中心都具有代表性;其中,K
‑
means聚类是一种迭代聚类的方法,首先将所有数据预分成K组,随机取出每一组中的一个样本作为聚类中心,计算每个样本与不同聚类中心的距离,将每个样本划分到与它最近的聚类中心所在的组,然后求每一组的中心,然后使用中心点当作该组的聚类中心,重复执行上述操作,直至每一组的中心点不再发生变化。5.如权利要求1所述的基于相关性图学习的案由分类方法,其特征是,基于M种已知案由分类标签对应的已抽取的M*N个聚类中心,和待分类案由的特征向量,构建构造图;具体包括:基于M种已知案由分类标签对应的已抽取的M*N个聚类中心,将M*N个聚类中心中每个聚类中心视为图的节点,将待分类案由的特征向量也视为图的节点,计算节点与节点之间的相似度,将相似度高于设定阈值的两个节点进行连...
【专利技术属性】
技术研发人员:尹义龙,侯文杰,袭肖明,张浩杰,马明珠,王子欣,朱桂萍,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。