一种用于法律文本信息挖掘的集成学习方法及系统技术方案

技术编号:20273605 阅读:22 留言:0更新日期:2019-02-02 04:03
本发明专利技术公开一种用于法律文本信息挖掘的集成学习方法,涉及信息挖掘和集成学习技术领域,通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型,利用线性SVM分类器学习不同特征工程模型得出的文本向量,并将学习后的线性SVM分类器对预处理后的法律文本进行预测,通过Stacking方法集成预测结果,同时训练并构建集成学习模型,以针对待处理法律文本输出更加全面和准确度更高的预测结果。本方法能更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性划分能力,降低泛化误差,相较于单一模型的预测,在罪名、法条、刑期等内容的预测上准确度更高。另外,本发明专利技术还公开一种用于法律文本信息挖掘的集成学习系统。

【技术实现步骤摘要】
一种用于法律文本信息挖掘的集成学习方法及系统
本专利技术涉及信息挖掘和集成学习
,具体的说是一种用于法律文本信息挖掘的集成学习方法及系统。
技术介绍
机器学习领域中,集成学习本身不是一个单独的机器学习算法,它是通过构建多个学习器并将其结合来形成强学习器来完成学习任务。过程中要注意的是弱分类器模型的选择和形式及将弱分类器组合为一个强分类器的方式。集成学习有Adaboost,Bagging等著名的同源集成方法,即通过对多个同类、同质的模型取平均、取多数票或多次训练取不同权重等方式进行集成学习。另外,还有Stacking的异源集成学习。它将训练集分为几个部分,分别使用不同的基分类器进行训练和预测。这些基分类器可以基于完全不同的思路和方法,具有更高的选择灵活性和结果差异性。然后将这几个基分类器的预测结果建立特征,并输入下一层分类器进行学习。下一层分类器将基分类器生成结果的组合模式作为特征进行进一步学习,从而获得更加泛化的学习能力。该层的预测结果即视为最终结果。Stacking方法的特点是通过集成多个各有侧重的异源分类器的预测生成新特征,比起相互独立的预测模型,能够增强非线性的表述能力,降低泛化误差,提高预测准确度。理论上,Stacking中的组合模型可以使用各种分类和回归模型。大数据和互联网的应用给传统的各行各业都开拓了新的思路,在法学研究和法律应用方面,法律数据呈现出数量大、更新快、多样化的特点。将大数据挖掘应用在法律数据相关的信息捕捉、管理、处理中,有助于提高数据处理的效率,将数据的价值充分的利用和体现出来。具体到司法和法律领域中,使用机器学习和数据挖掘旨在赋予机器理解和学习法律文本并进行分析和判断的能力,以此来完成罪名预测、法条推荐、刑期或罚金预测等有实际应用需求的任务中,有望辅助法官律师等相关人士高效的进行法律判决。全国各地每天产生的法律文书是一个很好的数据挖掘和机器学习的数据源。法律文书往往有着规范的格式、简洁的语言、清晰的逻辑、和明确的判决,经过处理之后辅以自然语言处理的技术,可以用于机器学习和数据挖掘的领域中,做到如判定罪名或推荐法条,预测刑期等常见任务中。在传统的机器学习中,通常只训练一个模型,通过选择合适的模型、调整参数和对数据的处理来提高预测的准确度。但在实际的判决中,案件的侧重点各有不同,要考虑多种因素;且各个因素间往往存在一定的上下文联系。因此,只通过单个模型往往很难具备广泛的适用性,准确度也会受到影响。
技术实现思路
本专利技术针对目前技术发展的需求和不足之处,提供一种用于法律文本信息挖掘的集成学习方法及系统。本专利技术的一种用于法律文本信息挖掘的集成学习方法,解决上述技术问题采用的技术方案如下:一种用于法律文本信息挖掘的集成学习方法,首先,收集专业法律工作人员处理过的法律文本作为数据源,对数据源进行预处理,其次,针对预处理结果训练得出不同的特征工程模型,线性SVM分类器学习不同特征工程模型得出的文本向量,随后,线性SVM分类器根据学习结果对预处理后的数据源进行预测,通过Stacking方法集成预测结果,将预测结果用于集成学习模型的训练,训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。具体的,所涉及对数据源进行预处理的操作包括:采用jieba或thulac工具构建词库,对数据源的法律文本进行分词和去除停用词处理。具体的,利用现有开源停用词词库,或者,请专业的法律工作人员针对数据源建立分词词库和停用词词库。具体的,将数据源的法律文本均分成三份,使用10-foldcrossvalidation,然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。当然,数据源的法律文本不一定非得均分成三份,还可以均分成四份、五份、甚至更过分,同样的,还可以使用ELMo、FastText、GloVe、WordRank训练出相应的ELMo特征工程模型、FastText特征工程模型、GloVe特征工程模型、WordRank特征工程模型。将数据源的法律文本均分成三份只是技术人员的一个常规选择。具体的,所涉及集成学习模型选用Logisticregression,Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵,三维向量矩阵输入Logisticregression进行Logisticregression的训练,Logisticregression训练完成后,再有待处理法律文本输入Logisticregression时,Logisticregression即可直接输出预测结果。基于上述一种用于法律文本信息挖掘的集成学习方法,本专利技术还公开一种用于法律文本信息挖掘的集成学习系统,其结构包括:收集模块,用于收集专业法律工作人员处理过的法律文本作为数据源;预处理模块,用于对数据源中的法律文本进行预处理;特征提取模块,用于提取数据源中所有法律文本具有的不同特征;训练构建模块,根据提取的不同特征训练并构建不同的特征工程模型;线性SVM分类器模块,用于学习不同特征工程模型得出的文本向量,并根据学习结果对预处理后的数据源进行预测;集成模块,用于通过Stacking方法集成线性SVM分类器模块的预测结果;学习训练模块,用于学习预测结果并根据预测结果训练集成学习模型;集成学习模型,用于对待处理法律文本进行更加全面和准确度更高的预测。可选的,所涉及预处理模块采用jieba或thulac工具,具体用于数据源的法律文本进行分词和去除停用词处理。可选的,所涉及集成学习系统还包括:均分模块,用于将数据源中的所有法律文本均分成N等份,其中N为不小于2的自然数,使用10-foldcrossvalidation,对N等份法律文本分别使用N个不同的特征工程模型进行训练。优选的,所涉及N为3,均分模块使用10-foldcrossvalidation,然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。可选的,所涉及集成学习模型选用Logisticregression,集成模块通过Stacking方法将线性SVM分类器模块的预测结果保存为三维向量矩阵,三维向量矩阵输入Logisticregression进行Logisticregression的训练,Logisticregression训练完成后,再有待处理法律文本输入Logisticregression时,Logisticregression即可直接输出预测结果。本专利技术的一种用于法律文本信息挖掘的集成学习方法及系统,与现有技术相比具有的有益效果是:1)本专利技术的集成学习方法通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型,利用线性SVM分类器学习不同特征工程模型得出的文本向量,并将学习后的线性SVM分类器对预处理后的法律文本进行预测,通过Stacking方法集成预测结果,同时训练并构建集成学习模型,以针对待处理法律文本输出更加全面和准确度更高的预测结果;本方法能更本文档来自技高网
...

【技术保护点】
1.一种用于法律文本信息挖掘的集成学习方法,其特征在于,首先,收集专业法律工作人员处理过的法律文本作为数据源,对数据源进行预处理,其次,针对预处理结果训练得出不同的特征工程模型,线性SVM分类器学习不同特征工程模型得出的文本向量,随后,线性SVM分类器根据学习结果对预处理后的数据源进行预测,通过Stacking方法集成预测结果,将预测结果用于集成学习模型的训练,训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。

【技术特征摘要】
1.一种用于法律文本信息挖掘的集成学习方法,其特征在于,首先,收集专业法律工作人员处理过的法律文本作为数据源,对数据源进行预处理,其次,针对预处理结果训练得出不同的特征工程模型,线性SVM分类器学习不同特征工程模型得出的文本向量,随后,线性SVM分类器根据学习结果对预处理后的数据源进行预测,通过Stacking方法集成预测结果,将预测结果用于集成学习模型的训练,训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。2.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法,其特征在于,对数据源进行预处理的操作包括:采用jieba或thulac工具构建词库,对数据源的法律文本进行分词和去除停用词处理。3.根据权利要求2所述的一种用于法律文本信息挖掘的集成学习方法,其特征在于,利用现有开源停用词词库,或者,请专业的法律工作人员针对数据源建立分词词库和停用词词库。4.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法,其特征在于,将数据源的法律文本均分成三份,使用10-foldcrossvalidation,然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。5.根据权利要求4所述的一种用于法律文本信息挖掘的集成学习方法,其特征在于,所述集成学习模型选用Logisticregression,Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵,三维向量矩阵输入Logisticregression进行Logisticregression的训练,Logisticregression训练完成后,再有待处理法律文本输入Logisticregression时,Logisticregression即可直接输出预测结果。6.一种用于法律文本信息挖掘的集成学习系统,其特征在于,该系统包括:收集模块,用于收集专业法律工作人员处理过的法律文本作为数据源;...

【专利技术属性】
技术研发人员:段强李锐于治楼
申请(专利权)人:济南浪潮高新科技投资发展有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1