一种用于法律文本信息挖掘的集成学习方法及系统技术方案

技术编号：20273605 阅读：22 留言：0更新日期：2019-02-02 04:03

本发明专利技术公开一种用于法律文本信息挖掘的集成学习方法，涉及信息挖掘和集成学习技术领域，通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型，利用线性SVM分类器学习不同特征工程模型得出的文本向量，并将学习后的线性SVM分类器对预处理后的法律文本进行预测，通过Stacking方法集成预测结果，同时训练并构建集成学习模型，以针对待处理法律文本输出更加全面和准确度更高的预测结果。本方法能更好的综合已有的信息，发现信息中上下文的关联，以此形成更强的非线性划分能力，降低泛化误差，相较于单一模型的预测，在罪名、法条、刑期等内容的预测上准确度更高。另外，本发明专利技术还公开一种用于法律文本信息挖掘的集成学习系统。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于法律文本信息挖掘的集成学习方法及系统
本专利技术涉及信息挖掘和集成学习
，具体的说是一种用于法律文本信息挖掘的集成学习方法及系统。
技术介绍
机器学习领域中，集成学习本身不是一个单独的机器学习算法，它是通过构建多个学习器并将其结合来形成强学习器来完成学习任务。过程中要注意的是弱分类器模型的选择和形式及将弱分类器组合为一个强分类器的方式。集成学习有Adaboost,Bagging等著名的同源集成方法，即通过对多个同类、同质的模型取平均、取多数票或多次训练取不同权重等方式进行集成学习。另外，还有Stacking的异源集成学习。它将训练集分为几个部分，分别使用不同的基分类器进行训练和预测。这些基分类器可以基于完全不同的思路和方法，具有更高的选择灵活性和结果差异性。然后将这几个基分类器的预测结果建立特征，并输入下一层分类器进行学习。下一层分类器将基分类器生成结果的组合模式作为特征进行进一步学习，从而获得更加泛化的学习能力。该层的预测结果即视为最终结果。Stacking方法的特点是通过集成多个各有侧重的异源分类器的预测生成新特征，比起相互独立的预测模型，能够增强非线性的表述能力，降低泛化误差，提高预测准确度。理论上，Stacking中的组合模型可以使用各种分类和回归模型。大数据和互联网的应用给传统的各行各业都开拓了新的思路，在法学研究和法律应用方面，法律数据呈现出数量大、更新快、多样化的特点。将大数据挖掘应用在法律数据相关的信息捕捉、管理、处理中，有助于提高数据处理的效率，将数据的价值充分的利用和体现出来。具体到司法和法律领域中，使用机器学习和数据挖掘...

【技术保护点】
1.一种用于法律文本信息挖掘的集成学习方法，其特征在于,首先，收集专业法律工作人员处理过的法律文本作为数据源，对数据源进行预处理，其次，针对预处理结果训练得出不同的特征工程模型，线性SVM分类器学习不同特征工程模型得出的文本向量，随后，线性SVM分类器根据学习结果对预处理后的数据源进行预测，通过Stacking方法集成预测结果，将预测结果用于集成学习模型的训练，训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。

【技术特征摘要】
1.一种用于法律文本信息挖掘的集成学习方法，其特征在于,首先，收集专业法律工作人员处理过的法律文本作为数据源，对数据源进行预处理，其次，针对预处理结果训练得出不同的特征工程模型，线性SVM分类器学习不同特征工程模型得出的文本向量，随后，线性SVM分类器根据学习结果对预处理后的数据源进行预测，通过Stacking方法集成预测结果，将预测结果用于集成学习模型的训练，训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。2.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，对数据源进行预处理的操作包括：采用jieba或thulac工具构建词库，对数据源的法律文本进行分词和去除停用词处理。3.根据权利要求2所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，利用现有开源停用词词库，或者，请专业的法律工作人员针对数据源建立分词词库和停用词词库。4.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，将数据源的法律文本均分成三份，使用10-foldcrossvalidation，然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。5.根据权利要求4所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，所述集成学习模型选用Logisticregression，Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵，三维向量矩阵输入Logisticregression进行Logisticregression的训练，Logisticregression训练完成后，再有待处理法律文本输入Logisticregression时，Logisticregression即可直接输出预测结果。6.一种用于法律文本信息挖掘的集成学习系统，其特征在于，该系统包括：收集模块，用于收集专业法律工作人员处理过的法律文本作为数据源；...

【专利技术属性】
技术研发人员：段强，李锐，于治楼，
申请(专利权)人：济南浪潮高新科技投资发展有限公司，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人