一种罪名的判定方法、装置及计算机设备、存储介质制造方法及图纸

技术编号:19009183 阅读:71 留言:0更新日期:2018-09-22 09:03
本发明专利技术属于大数据处理领域,提供了一种罪名的判定方法、装置及计算机设备、存储介质。所述罪名的判定方法包括:获取待判定的犯罪事实文本信息;对所述犯罪事实文本信息进行分词处理和去噪处理;从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取,所述关键字用以表征一段犯罪事实;将提取的关键字信息带入定罪分类器,生成对所述待判定的犯罪事实的罪名判定结果,所述定罪分类器通过训练犯罪事实学习语料获得。本申请可以智能的判定罪名,不但简化了定罪的过程,提高了办案的效率,而且给法律专业人员的办案提供了辅助作用,对非法律人员的相关咨询提供了指导性帮助。

A judging method, device, computer equipment and storage medium for accusation

The invention belongs to the field of large data processing, and provides a method for determining a charge, a device, a computer device and a storage medium. The determination methods of the charges include: obtaining the information of the criminal facts to be determined; segmenting and denoising the information of the criminal facts; extracting the keywords from the criminal facts text information processed by segmenting and denoising, and using the keywords to represent a criminal fact; and extracting the keywords from the criminal facts text information processed by segmenting and denoising. The key word information is brought into the conviction classifier, and the conviction classifier generates the result of the conviction judgment of the criminal facts to be determined. The conviction classifier is obtained by training the criminal facts to learn the corpus. This application not only simplifies the conviction process, improves the efficiency of handling cases, but also provides assistance to legal professionals in handling cases, and provides guidance for the relevant counseling of non-legal personnel.

【技术实现步骤摘要】
一种罪名的判定方法、装置及计算机设备、存储介质
本专利技术涉及大数据处理领域,尤其涉及一种罪名的判定方法、装置及计算机设备、存储介质。
技术介绍
互联网发展到今天,“人工智能”是被提到最多的词汇之一,法律信息服务行业也不例外。在互联网颠覆时代的大背景下,法律行业逐渐受到冲击并发生改变。尤其是法律网络数据库中包含着海量数据,很容易被联想到“大数据”。然而“大数据”的概念远不止传统数据库对数据的存储、检索和管理,更是对数据的分析和使用,是对海量数据实用价值和经济价值的深度挖掘。正是由于大数据分析的重要性,结合司法案例数据体量巨大的特点,独立的案例分析平台建设是十分必要的。而“定罪”是案例分析中非常重要的工作之一,利用技术手段实现智能定罪可以极大的提高定罪这个过程的速率,这会给办案人员、律师、甚至是非法律人士带来巨大的帮助。目前来说,定罪的工作主要还是依靠法律专业人员的本身知识、经验结合相关的法律法规进行人为的得出结论,整个定罪的过程如下:第一步,通过证据确定的犯罪事实中找到嫌疑人的行为。第二步,寻找该行为法定特征,与相似罪名找区别点,比如故意杀人和故意伤害,区别在于嫌疑人主管犯罪目的是什么。再比如,故意伤害罪和聚众斗殴罪,区别是二者侵犯的客体不同,对犯罪主体要求也不同,比对区别是隐藏步骤,不一定每一次都会用到)。第三步,找到犯罪主体(嫌疑人)的特征,比如是否有特殊身份。第四步,文书中寻找是否有酌定的定罪情节,例如犯罪动机,犯罪目的,犯罪时间、犯罪地点等方面。现在的定罪手段主要依靠的是人,要靠人的学识、经验结合法律法规来判定一些非常见的犯罪事实的罪名,这是一个很费时费力的过程,不仅给相关法律人员带来巨大的工作量,同时也使得整个的过程的效率下降。对于非专业法律人来说,去判定一些非常见的犯罪事实的罪名更是困难无比的一件事,这几乎是不可能完成的一个工作。应该注意,上面对技术背景的介绍只是为了方便对本专利技术的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本专利技术的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
本专利技术提出一种罪名的判定方法、装置及计算机设备、存储介质,以解决现有技术中主要靠人为判定一个犯罪事实的罪名的问题。为了解决上述问题,本专利技术实施例提出一种罪名的判定方法,包括:获取待判定的犯罪事实文本信息;对所述犯罪事实文本信息进行分词处理和去噪处理;从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取,所述关键字用以表征一段犯罪事实;将提取的关键字信息带入定罪分类器,生成对所述待判定的犯罪事实的罪名判定结果,所述定罪分类器通过训练犯罪事实学习语料获得。为了解决上述问题,本专利技术实施例还提出一种罪名的判定装置,包括:获取模块,用于获取待判定的犯罪事实文本信息;预处理模块,用于对所述犯罪事实文本信息进行分词处理和去噪处理;关键字提取模块,用于从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取,所述关键字用以表征一段犯罪事实;判定模块,用于将提取的关键字信息带入定罪分类器,生成对所述待判定的犯罪事实的罪名判定结果,所述定罪分类器通过训练犯罪事实学习语料获得。为了解决上述问题,本专利技术实施例还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的罪名的判定方法的步骤。为了解决上述问题,本专利技术实施例还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的罪名的判定方法的步骤。本申请实施例提供了一种罪名的判定方法、装置及计算机设备、存储介质,在输入犯罪事实文本信息后,可以智能的判定罪名,不但简化了定罪的过程,提高了办案的效率,而且给法律专业人员的办案提供了辅助作用,对非法律人员的相关咨询提供了指导性帮助。参照后文的说明和附图,详细公开了本专利技术的特定实施方式,指明了本专利技术的原理可以被采用的方式。应该理解,本专利技术的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本专利技术的实施方式包括许多改变、修改和等同。针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例的罪名的判定方法的处理流程图;图2为本申请一具体实施例的从一篇盗窃罪的裁判文书中抽取的犯罪事实的示意图;图3为本申请一具体实施例的对犯罪事实进行关键字抽取的示意图;图4为本申请实施例的罪名的判定装置的结构示意图;图5为本申请实施例的预处理模块101的结构示意图;图6为本申请另一实施例的罪名的判定装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本领域技术技术人员知道,本专利技术的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。下面参考本专利技术的若干代表性实施方式,详细阐释本专利技术的原理和精神。本申请中涉及的技术术语包括:分词处理:指的是将一个汉字序列切分成一个一个单独的词。向量化处理:对每个词进行处理,用一个矩阵来代表该词。词性标注处理:又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。TF-IDF方法:TF-IDF是一种统计方法,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF指的是某一个给定的词语在该文件中出现的次数。IDF是指一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。Bayes算法:设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1,x2,…,xn},假定有m个类,分别用C1,C2,…,Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是P(Ci|X)>P(Cj|X)1≤j≤m,j≠i;根据贝叶斯定理,由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样先验概率P(x1|C本文档来自技高网
...
一种罪名的判定方法、装置及计算机设备、存储介质

【技术保护点】
1.一种罪名的判定方法,其特征在于,包括:获取待判定的犯罪事实文本信息;对所述犯罪事实文本信息进行分词处理和去噪处理;从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取,所述关键字用以表征一段犯罪事实;将提取的关键字信息带入定罪分类器,生成对所述待判定的犯罪事实的罪名判定结果,所述定罪分类器通过训练犯罪事实学习语料获得。

【技术特征摘要】
1.一种罪名的判定方法,其特征在于,包括:获取待判定的犯罪事实文本信息;对所述犯罪事实文本信息进行分词处理和去噪处理;从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取,所述关键字用以表征一段犯罪事实;将提取的关键字信息带入定罪分类器,生成对所述待判定的犯罪事实的罪名判定结果,所述定罪分类器通过训练犯罪事实学习语料获得。2.根据权利要求1所述的罪名的判定方法,其特征在于,所述对犯罪事实文本信息进行分词处理,具体包括:利用分词器对所述犯罪事实文本信息进行分词处理;利用word2vector技术对分词后的词进行向量化处理。3.根据权利要求2所述的罪名的判定方法,其特征在于,所述对犯罪事实文本信息进行去噪处理,具体包括:利用设定的规则库和噪音库对分词处理后的犯罪事实文本信息进行去噪处理。4.根据权利要求1-3任一项所述的罪名的判定方法,其特征在于,所述定罪分类器通过训练犯罪事实学习语料获得,具体包括:构建各个罪名的犯罪事实学习语料库;构建各个罪名对应的规则库和噪音库;利用所述规则库和噪音库对所述犯罪事实学习语料库进行清洗;对清洗后的犯罪事实学习语料库进行建模处理,得到定罪分类器。5.一种罪名的判定装置,其特征在于,包括:获取模块,用于获取待判定的犯罪事实文本信息;预处理模块,用于对所述犯罪事实文本信息进行分词处理和去噪处理;关键字提取模块,用于从经过分词处理和去噪处理的犯罪事实文本信息中进行关键字提取,所述关键字用以表征一段犯罪事实;判定模块,用于将提取的关键...

【专利技术属性】
技术研发人员:武光鼎
申请(专利权)人:北京北大英华科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1