基于大数据的案件自动分类、优化方法及训练集修正方法技术

技术编号:28477465 阅读:14 留言:0更新日期:2021-05-15 21:46
本发明专利技术公开了基于大数据的案件自动分类、优化方法及训练集修正方法,通过融合多个模型、进行多次训练验证的过程,并对不同模型赋予不同投票权重,使得分类模型更加准确,并且在训练样本较少时同样适用,通过融合多个文本分类模型对法律案件进行分类,帮助工作人员分类管理,提高了案件分类的准确率,提高了工作效率,节约了大量人力物力。节约了大量人力物力。

【技术实现步骤摘要】
基于大数据的案件自动分类、优化方法及训练集修正方法


[0001]本专利技术涉及案件分类和自然语言处理研究领域,具体涉及基于大数据的案件自动分类、优化方法及训练集修正方法。

技术介绍

[0002]目前的法律案件分类仍然是传统的人工处理、人工解决问题,然而由于中国人口基数大,社会问题复杂,使得案件总量多、涉及到的领域繁杂,工作人员需要通过人工理解案件申请人的申诉事实、理由和目的,并正确的做出分类,耗时耗力。工作人员需要根据案件文本人工决定案件大致分类,缺乏智能化的案件自动处理工具。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:目前缺乏对法律案件的自动分类方法,在训练样本不足时,现有的文本分类模型难以准确分类,历史案件中存在标签不准确的问题,缺乏案件的自动分类的策略。

技术实现思路

[0003]为了克服现有技术的不足,本公开实施例提供了一种基于大数据的案件自动分类、优化方法及训练集修正方法,通过融合多个文本分类模型对法律案件进行分类,提高了案件分类的准确率,提高案件分类工作效率,节约了大量的人力物力。技术方案如下:第一方面,提供了一种基于大数据的法律案件自动分类方法,该方法包括如下步骤:融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类。
[0004]获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集。
[0005]选取Logistic、SVM、RNN、LSTM四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型。
[0006]对于第一层基础模型中的每个文本分类模型M,将训练集样本平均分为K部分,分别记作train(1),train(2),

,train(K),取出第i部分训练集train(i),i=1,2,

,K,采用剩余K

1部分的训练集来训练文本分类模型M(i),即依次得到M(1),M(2),

,M(K),利用训练好后的模型M(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签PY
train(i)
,train(i)每个样本自身的真实标签记作Y
train(i)
,这样当i遍历1~K每个值时,可得到每个样本的预测标签PY
train(1)
,PY
train(2)


,PY
train(K)
,其对应的样本真实标签为Y
train(1)
,Y
train(2)


,Y
train(K)
,将PY
train(1)
,PY
train(2)


,PY
train(K)
依次拼接作为线性回归模型的输入,Y
train(1)
,Y
train(2)


,Y
train(K)
依次拼接为输出,训练得到相应的第二层线性回归模型L(M),利用训练得到的K个文本分类模型M(1),M(2),

,M(K)分别对验证集validation进行预测,并将K个结果取均值后得到验证集validation的预测值PY
validation
,再利用训练好的第二层线性回归模型L(M)以PY
validation
作为输入进行预测,并与验证集的真实标签Y
validation
进行比较,利用交叉熵损失函数计算公式计算得到损失函数Loss(M);当M分别取第一层基础模型中的Logistic分类模型,记作clf1、SVM分类模型,记作clf2、RNN文本分类模型,记作clf3、LSTM文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数Loss(clf1),Loss(clf2),Loss(clf3),Loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:。
[0007]分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即针对一个新的案件,通过综合分类模型可预测得到案件的类别Z1及其概率P(Z1)。
[0008]优选的,该方法还包括,利用关键词进行分类;将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语;对于每个类别C,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别C的相关性:R(a,C)=(类别C案件中词语a出现的平均次数+1)/(类别C以外的案件中词语a出现的平均次数+1);将关键词进行广义扩充,广义词语是指包含了2~n个关键词的集合,n为案件文本关键词的个数,对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中的每个词语,则同样可以计算b与类别C的相关性:R(b,C)=(类别C案件中词语b出现的次数+1)/(类别C以外的案件中词语b出现的次数+1);对于每个词语与类别的相关性进行标准化变换,记作关联系数:x是狭义或广义词语。
[0009]进一步的,当关键词与类别的汉语文字相同时,即包含了该关键词的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。
[0010]进一步的,对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列,去除类别中出现词语次数<阈值的词语,去除噪音。
[0011]对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别Z2,每个类别的概率P(Z2)由关联系数经过softmax计算得到。
[0012]结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测:对于一个新的案件, 通过这两种算法可以分别得到两个预测类别Z1,Z2以及预测概率P(Z1),P(Z2);当Z1=Z2时:直接预测新的案件最终类别为Z1;当Z1,Z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。
[0013]优选的,该方法还包括,根据相似历史案例进行分类:从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的
文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本T。
[0014]对于一个新的案件,首先去除案件文本的标点符号得到文本字符串Y,并依次计算Y与每个历史案件文本T的相似性,文本相似性为:S(Y,T)=(Y与T相同的狭义或广义词语的个数)/(Y的文本长度+T的文本长度)。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的法律案件自动分类方法,其特征在于,该方法包括如下步骤:融合多个文本分类模型,经过训练得到综合分类模型,采用综合分类模型进行分类:获取多个不同类别的历史的法律案件作为样本集,把每个类别的样本分别分成两部分作为:训练集、验证集;选取Logistic、SVM、RNN、LSTM四个文本分类模型作为第一层基础模型,取线性回归模型作为第二层模型;对于第一层基础模型中的每个文本分类模型M,将训练集样本平均分为K部分,分别记作train(1),train(2),

,train(K),取出第i部分训练集train(i),i=1,2,

,K,采用剩余K

1部分的训练集来训练文本分类模型M(i),即依次得到M(1),M(2),

,M(K),利用训练好后的模型M(i)对train(i)的输入进行预测,得到train(i)每个样本的预测标签PY
train(i)
,train(i)每个样本自身的真实标签记作Y
train(i)
,这样当i遍历1~K每个值时,可得到每个样本的预测标签PY
train(1)
,PY
train(2)


,PY
train(K)
,其对应的样本真实标签为Y
train(1)
,Y
train(2)


,Y
train(K)
,将PY
train(1)
,PY
train(2)


,PY
train(K)
依次拼接作为线性回归模型的输入,Y
train(1)
,Y
train(2)


,Y
train(K)
依次拼接为输出,训练得到相应的第二层线性回归模型L(M),利用训练得到的K个文本分类模型M(1),M(2),

,M(K)分别对验证集validation进行预测,并将K个结果取均值后得到验证集validation的预测值PY
validation
,再利用训练好的第二层线性回归模型L(M)以PY
validation
作为输入进行预测,并与验证集的真实标签Y
validation
进行比较,利用交叉熵损失函数计算公式计算得到损失函数Loss(M);当M分别取第一层基础模型中的Logistic分类模型,记作clf1、SVM分类模型,记作clf2、RNN文本分类模型,记作clf3、LSTM文本分类模型,记作clf4后,便分别得到四个模型对应的损失函数Loss(clf1),Loss(clf2),Loss(clf3),Loss(clf4),损失函数越低,则代表对应的模型效果越好,为第一层基础模型分别赋予投票权重:分别得到第一层基础模型中四个模型的投票权重后,利用完整的训练集对第一层基础模型中四个模型进行训练得到第一层训练好的四个模型,分别对验证集进行预测并乘以模型对应的投票权重得到预测值,利用预测值和验证集真实的标签训练得到第二层的线性模型,两层模型组合形成综合分类模型,即针对一个新的案件,通过综合分类模型可预测得到案件的类别Z1及其概率P(Z1)。2.根据权利要求1所述的一种基于大数据的法律案件自动分类方法,其特征在于,该方法还包括,利用关键词进行分类;将每个案件文本进行分词、去除停用词处理,保留其中的名词、动词、形容词作为关键词,关键词即狭义词语;对于每个类别C,计算该类别下案件中每个关键词a出现的总次数,计算关键词a与类别C的相关性:R(a,C)=(类别C案件中词语a出现的平均次数+1)/(类别C以外的案件中词语a出现的平均次数+1);将关键词进行广义扩充,广义词语是指包含了2~n个关键词的集合,n为案件文本关键词的个数,对于每一个广义词语b,案件中出现广义词语b是指同时包含了b中的每个词语,则同样可以计算b与类别C的相关性:R(b,C)=(类别C案件中词语b出现的次数+1)/(类别C以
外的案件中词语b出现的次数+1);对于每个词语与类别的相关性进行标准化变换,记作关联系数:x是狭义或广义词语;对于一个新的案件,则分别计算其中每个关键词或广义词语与每个类别的关联系数,求和后取关联系数最大的类别作为预测类别Z2,每个类别的概率P(Z2)由关联系数经过softmax计算得到;结合采用综合分类模型进行分类和利用关键词进行分类的2种分类结果进行最终预测:对于一个新的案件,通过两种算法可以分别得到两个预测类别Z1,Z2以及预测概率P(Z1),P(Z2);当Z1=Z2时:直接预测新的案件最终类别为Z1;当Z1,Z2不相同时,则取预测概率最大的所对应的预测类别作为最终类别。3.根据权利要求2所述的一种基于大数据的法律案件自动分类方法,其特征在于,当关键词与类别的汉语文字相同时,即包含了该关键词的案件中直接出现了对应类别的词语,则归属此类别的概率极大,所以此时则直接取关联系数为1。4.根据权利要求2所述的一种基于大数据的法律案件自动分类方法,其特征在于,对于每个类别,分别计算得到每个关键词或广义词语与该类别的关联系数,从高至低排列,去除类别中出现词语次数<阈值的词语,去除噪音。5.根据权利要求1所述的一种基于大数据的法律案件自动分类方法,其特征在于,该方法还包括,根据相似历史案例进行分类:从每个类别的案件中选取一定数量的历史案件,且使得案件文本长度包括不同的文本长度类型,对于选取的每个历史案件,去除案件文本中的标点符号,得到每个历史案件文本...

【专利技术属性】
技术研发人员:周金明陈贵龙
申请(专利权)人:南京视察者智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1