当前位置: 首页 > 专利查询>南京大学专利>正文

一种用于刑罚推断的主题模型PTM制造技术

技术编号:22913924 阅读:66 留言:0更新日期:2019-12-24 21:50
本发明专利技术旨在从原始法律案件中提取五种不同的司法特征,包括时间戳、地点、诉讼原因以及案件事实的文本描述,并将上述特征输入到PTM模型中。其中,文本是必需元素。本发明专利技术学习测试中的法律案件的主题,并结合在训练过程中学习到的主题并通过一种投票机制来推断该法律案件的判罚。

【技术实现步骤摘要】
一种用于刑罚推断的主题模型PTM
本专利技术属于计算机技术中的机器学习领域,尤其是机器学习中数据分析领域,使用PenaltyTopicModel(PTM)用于司法研究中的刑罚推断,该技术可以为法官决定最终判罚或罚款金额提供有效帮助,进而有利于司法事业的发展和社会效率的提高。
技术介绍
目前,传统的主题建模技术包括LDA和PLSA等,也有一些技术致力于研究位置信息或时间信息与主题之间的关系。而司法研究大多停留在宏观层面,人工智能和机器学习鲜少被用于法律案件的知识发现或刑罚推断问题,从而导致大量的法律案件及其成因仍然处于未被探索的阶段。法律案件的最终判决是一项复杂的工作,它往往涉及很多谈判、适用的法规或情形以及历史上类似的案例。这个过程的每一步都需要集中的人力和专业知识。为了模仿法庭判决的过程,我们的专利技术旨在从计算机科学的角度对某些步骤进行定量分析,通过数据本身揭示法律案件中的统计特征。对司法大数据运用机器学习方法来进行刑法推断,并采用推荐系统的方法论。根据案件影响因素的复杂性及案件可能适用于多种法规或情形可知,刑罚推断可能是多标签多类问题。刑罚主题模型的相关概念主要包括:1.法律案件:一个法律案件是一个四元组(Wm,c,t,l),表示法律案件m由词汇集Wm,诉讼原因c,时间信息t和位置l组成。2.主题:在给定一个法律案件集的情况下,由主题模型生成的主题z是词汇多项分布φk,诉讼原因β分布时间戳β分布和地理坐标上的高斯分布的结合。3.刑罚推断:给定具有时空信息的法律案件数据集D以及诉讼原因的信息和目标法案v,我们的目标是针对法律案件v推荐可能的判罚或罚款金额。目标法案v的判罚或罚款金额是采用投票策略从其所属的主题推断出来的。并且,还可以获得如下这些直观的信息:1.法律案件的主题。对法律案件事实的描述呈现出强烈的语义规律性,即除了官方所标注的诉讼原因外,文本描述揭示了该法律案件的本质语义主题。2.时间信息。在某种诉讼原因下,罚款金额往往保持在一定范围内。给定一个法律案件,其时间戳提供了关于其本质主题的关键线索。3.位置信息。在某一年,罚款金额往往与地理位置具有高度相关性。同一省份同一诉讼原因的法律案件趋向于有相近的判决,附近省份之间的相关性也远高于相距较远的省份。
技术实现思路
本专利技术要解决的问题是:提出一种用于刑罚推断的主题模型PTM。本专利技术的技术方案为:1)从原始法律案件中提取五种不同的司法特征,包括时间戳、地点、诉讼原因以及案件事实的文本描述。2)将上述特征输入到PTM模型中。其中,只有文本是必需的。3)然后,学习测试中的法律案件的主题,并结合在训练过程中学习到的主题。4)通过一种投票机制来推断该法律案件的判罚。在真实的大规模法律案件数据集上进行的大量的实验也体现了PTM模型的优越性。本专利技术的有益效果是:PTM模型可以推断法律案件的主题,以及案件判断中包含的主题的时间和空间模式,再利用学到的这些知识将所有案件以统一的方式自动聚类。进而帮助法律人员决定最终判罚或罚款金额,促进司法事业的发展和社会效率的提高。附图说明图1刑罚推断的框架图图2PTM图模型图3PTM模型与其他方法的比较具体实施方式相关定义如下表所示:我们将法律案件m中的主题建模为所有主题的多项分布,记为θm。在形式上,我们假设有K个主题,每个主题由一个词分布表示。令φk表示主题k的词分布。为了模拟法律案件的生成过程,首先根据主题分布选择一个主题。然后根据所选主题逐一选择词袋。正如上述,与法律案件有关的处罚表现出不同的时间和空间格局,这也面临着诉讼原因分类的限制。因此,PTM中的主题k不仅负责生成单词Wm,还包括时间信息和法律案件m的地理坐标lm,以及诉讼原因信息。也就是说,我们的PTM模型中的每个主题k不仅与单词分布φk相关联,还与时间分布诉讼原因分布以及地理坐标上的高斯分布有关。这种设计能够通过潜在变量主题k将单词、时间信息、诉讼原因分类信息和法律案件的地理位置关联在一起。注意,为了避免过度拟合,我们将Dirichlet先验置于多项分布θm上,参数为α。其中Γ(·)是gamma函数。类似地,φk上的先验是参数β施加的。如下所示,我们正式描述了法律案件数据集的PTM的概率生成过程,其中Dir()和Multi()分别表示Dirichlet和多项分布。1.对于每个主题k=1,...,K,提取φk~Dir(β),表示主题k的特定词分布。2.对于每个法律案件m=1,...,M(a)提取θm~Dir(α),表示法律案件m中的主体分布。(b)对于主题k中的第n个法律案件,n=1,...,Ni提取诉讼原因主题k上的贝塔分布。ii提取时间戳主题k上的贝塔分布。iii提取位置主题k上的高斯分布。iv对每个单词w∈Wm,提取最后,我们得到观测值和隐藏变量的联合分布,如公式2所示。ThejointprobabilityoftheobservedandhiddenvariablesinthePTMmodel模型推导过程如下:我们的目标是学习使观察到的随机变量m,lm,c,Wm和t的边缘对数似然最大化的参数。边缘化是针对潜在随机变量z执行的,并且很难在PTM模型中进行精确的推断。因此,我们采用吉布斯抽样来进行近似推理。请注意,我们采用了共轭先验(Dirichlet)进行多项分布,因此我们可以很容易地将θ和φ积分,从而分析捕获与它们相关的不确定性。由于空间的限制,我们省略了求导细节。这样我们便于采样,也就是说,我们根本不需要采样θ和φ。因为我们使用连续的Beta和Gaussian分布而不是将时间和空间离散化,因此在拟合此模型的时间和空间部分时,稀疏度并不是一个大问题。为了简化和快速推理,我们通过吉布斯采样每次迭代后的矩量法来估算Beta分布参数和Gaussian分布参数至于超参数α和β,为了简单起见,根据研究[13,14],我们采用固定值,即α=50/K和β=0.01。在吉布斯抽样过程中,我们需要获得每个法律案件m(lm,c,t,Wm)潜在主题k的后验概率。首先,我们需要计算条件概率其中代表给除当前法律案件外所有法律案件的主题k赋值。首先,是等式2所示的潜在变量和观测变量的联合概率分布,再使用贝叶斯链规则,我们可以很容易地得到条件概率:其中nk是法律案件中对主题k抽样的次数;nk,w是由类别——主题k生成单词w的次数;而带有上标的数字表示排除当前实例的数量。在每次迭代之后,我们使用矩量法来根据指定的潜在变量k来简单和快速地更新Beta和高斯分布参数(即,和)。具体而言,参数和如等式(4)和(5)所示进行更新。其中Sk表示分配有潜在主题k的法律案件。Beta分布参数进行如下更新:本文档来自技高网
...

【技术保护点】
1.一种用于刑罚推断的主题模型PTM,其特征是:(1)从原始法律案件中提取五种不同的司法特征,包括时间戳、地点、诉讼原因以及案件事实的文本描述。(2)将上述特征输入到PTM模型中。其中,只有文本是必需的。(3)学习测试中的法律案件的主题,并结合在训练过程中学习到的主题。(4)通过一种投票机制来推断该法律案件的判罚。/n

【技术特征摘要】
1.一种用于刑罚推断的主题模型PTM,其特征是:(1)从原始法律案件中提取五种不同的司法特征,包括时间戳、地点、诉讼原因以及案件事实的文本描述。(2)将上述特征输入到PTM模型中。其中,只有文本是必需的。(3)学习测试中的法律案件的主题,并结合在训练过程中学习到的主题。(4)通过一种投票机制来推断该法律案件的判罚。


2.据权利要求1所述的刑罚推断的主题模型PTM特征,需注意,PTM是一种潜类别概率生成模型;输入的数据,即原始法律案件,被模拟为观察到的随机变量;潜在变量主题k将单词、时间信息、诉讼原因分类信息和法律案件的地理位置都关联在一起。


...

【专利技术属性】
技术研发人员:何铁科严格廉昊秦泽民史洋洋陈振宇
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1