一种法律文书案由分类器的自动构建方法技术

技术编号:16128946 阅读:44 留言:0更新日期:2017-09-01 20:54
本发明专利技术提供一种法律文书案由分类器的自动构建方法,分类效率高、准确率高。所述方法包括:获取多类案由的法律文书,确定每类案由的测试语料;对每类测试语料去停用词和分词;根据分词结果,确定每类案由的基本关键词;根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。本发明专利技术涉及知识工程技术领域。

A method for automatic construction of legal documents of the classifier

The present invention provides a method for automatically constructing a legal document of the classifier, high classification efficiency and high accuracy. The method includes: obtaining multi class legal documents, determine the test corpus each class; for each type of test corpus to stop words and word segmentation; according to the segmentation results, determine the basic key words in each class; according to the segmentation results, for each type of test corpus of word vectors, expand keywords, according to the extended keywords and keywords to determine, determine the list of keywords per class expansion; input to classification of legal documents, legal documents to classification of the input to the word segmentation, and disable and word vectors, word vector training result according to the legal documents to be classified, the classification of legal documents to be calculated and each type of extended sum semantic similarity list of keywords, the semantic similarity sum corresponding to the maximum value of the corresponding legal documents to be classified by the. The invention relates to the field of knowledge engineering technology.

【技术实现步骤摘要】
一种法律文书案由分类器的自动构建方法
本专利技术涉及知识工程
,特别是指一种法律文书案由分类器的自动构建方法。
技术介绍
近几年,我国最高人民法院为贯彻落实审判公开原则,设立了中国裁判文书网,规定除涉及国家秘密、个人隐私的、未成年人违法犯罪的、以调解方式结案的和其他不宜在互联网公布的裁判文书外,其余一律在网络上公布。这一政策为面向法律文书的自然语言处理技术带来了大量的研究资源。在法律信息公开化的大时代背景下,在已有的海量法律文书中,让计算机获得学习能力和较准确的领域知识,有效利用这些海量的文本资源克服文本自然语言理解过程中的复杂性问题,实现文本分析,具有重要的理论价值和实际意义。现有技术中,法律文书的案由提取,多为人工标记,效率低下;或是利用正则表达式进行匹配,准确率低。
技术实现思路
本专利技术要解决的技术问题是提供一种法律文书案由分类器的自动构建方法,以解决现有技术所存在的案由提取效率低下、准确率低的问题。为解决上述技术问题,本专利技术实施例提供一种法律文书案由分类器的自动构建方法,包括:获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测本文档来自技高网...
一种法律文书案由分类器的自动构建方法

【技术保护点】
一种法律文书案由分类器的自动构建方法,其特征在于,包括:获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料;对每类测试语料去停用词和分词;根据分词结果,确定每类案由的基本关键词;根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。

【技术特征摘要】
1.一种法律文书案由分类器的自动构建方法,其特征在于,包括:获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料;对每类测试语料去停用词和分词;根据分词结果,确定每类案由的基本关键词;根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。2.根据权利要求1所述的法律文书案由分类器的自动构建方法,其特征在于,所述法律文书包括:判决书和裁定书;所述获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料包括:获取多类案由的法律文书,根据获取的所述多类案由的法律文书,构建案由基础语料库;针对第i类案由,从构建的所述案由基础语料库中选取相应的判决书和裁定书进行合并,得到第i类案由的测试语料。3.根据权利要求1所述的法律文书案由分类器的自动构建方法,其特征在于,在对每类测试语料去停用词和分词之前,所述方法还包括:对每类测试语料进行结构划分,去掉文书头部、文书尾部以及当事人信息。4.根据权利要求3所述的法律文书案由分类器的自动构建方法,其特征在于,所述对每类测试语料去停用词和分词包括:根据预先自定义的去停用词词典和分词词典,利用Ansj分词器对去掉文书头部、文书尾部以及当事人信息的每类测试语料去停用词和分词;对分词后得到的结果进行数据过滤。5.根据权利要求4所述的法律文书案由分类器的自动构建方法,其特征在于,所述对分词后得到的结果进行数据过滤包括:过滤掉分词后结果中的人名、地名、企业、法院。6.根据权利要求1所述的法律文书案由分类器的自动构建方法,其特征在于,所述根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表包括:根据分词结果,应用词向量模型对第i类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的第i类案由的基本关键词,确定第i类案由的扩充关键词列表。7.根据权利要求6所述的法律文书案由分类器的自动构建方法,其特征在于,所述根据分词结果,应用词向量模型对第i类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的第i类案由的基本关键词,确定第i类案由的扩充关键词列表包括:应用词向量模型对第i类测试语料进...

【专利技术属性】
技术研发人员:金佩张德政贾麒谢永红齐宇馨栗辉
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1