一种基于案情描述的类案推送方法与装置制造方法及图纸

技术编号:25396763 阅读:122 留言:0更新日期:2020-08-25 23:01
本发明专利技术特别涉及一种基于案情描述的类案推送方法与装置。该基于案情描述的类案推送方法,首先借助深度学习模型对判决书各个段落进行层次编码,根据段落上下文编码形成特征,通过多层感知机进行二分类建模,通过训练生成案情描述判定模型,使用模型提取待处理判决书的案情描述;然后构建判决书案情描述潜在语义空间;最后将用户输入的查询语句映射到潜在语义空间,计算其和所有案情描述向量的相似性,根据相似性进行排序,将TopK案情描述对应判决书推荐给用户。该基于案情描述的类案推送方法与装置,不仅减少了除案情描述外其它类型要素的影响,提高了类案推送的效果,还能够从判决书中准确提取案情描述,适宜推广应用。

【技术实现步骤摘要】
一种基于案情描述的类案推送方法与装置
本专利技术涉及文本检索与神经网络
,特别涉及一种基于案情描述的类案推送方法与装置。
技术介绍
智能革命时代背景下,“智慧法院”建设正如火如荼地进行,并已取得阶段性实效,各地兴建了大量智能辅助办案系统。其中,类案推送是这些系统的基础,它使用自然语言处理、人工智能等先进技术,处理司法领域的海量判决书,找到与当前案例类似的判决书,推送给相关的用户;它能够更好地发挥海量法律文书的实际价值,从而提高司法工作的效率。目前,常用的关系抽取方法包括下述四种:(1)关键字匹配法采用格式化输入方式,或者抽取查询语句关键字的方式,得到描述当前案例的关键字,并在判决书中进行检索。可以采用全文检索或关键字检索对每个判决书进行匹配,也可以采用倒排文档的方式在包含关键字的判决书集合中进行检索,从而缩小范围,提高检索速度。但是,这种方法只能对关键字进行字面匹配,无法理解关键字的语义特征,没有智能性。(2)向量空间法采用向量的形式表示判决书,即通过自然语言处理技术将每份判决书都表示为一条向量,该向量蕴含起因、经过、结果、人证、物证、法条、罪名、判决结果等要素。用户输入信息也表示为向量,通过计算该向量和判决书向量之间的相似性,获得和用户输入信息最相似的判决书。因为词向量包含语义信息,所以该方法可以理解用户输入信息中的语义特征,具有智能性。但是,判决书包含起诉、判决、案情描述、法律角色、法律机构等多种不同类型的要素,所以其向量化结果是上述各类要素向量化结果的混合体;而用户输入信息主要和案情描述有关,所以其向量化结果主要体现案情描述,和判决书的向量化结果对应的要素类型存在明显差异,因此计算二者的相似性时容易受到除案情描述外其它类型要素的影响。(3)知识图谱法采用本体的形式表示判决书,即将判决书表示为由起因、经过、结果、人证、物证、法条、罪名、判决结果等要素构成的实体,这些要素称为实体的属性,实体之间存在关联,反映了判决书之间的关系,从而构成知识图谱。采用自然语言处理技术获取用户输入信息中的要素,然后根据要素在知识图谱中进行检索,找出相匹配的实体,也就是与当前案例类似的判决书。本体是对特定领域概念及其相互之间关系的形式化表达,可以通过语义网络进行推理,具有很强的智能性。但是,构建知识图谱存在实体定义、属性抽取、语义类型定义、概念映射、语义关系定义等步骤,每个步骤目前都存在难点,不能保证达到预期的准确性,从而影响整体的性能。(4)深度学习法通过采用字向量或词向量对判决书的单字或词汇进行向量化,然后将向量化序列送入深度学习网络(RNN、LSTM、GRU等)进行编码,得到不同句子的向量化结果。然后将每个段落不同句子的向量化结果组成序列,再次送入深度学习网络进行编码,得到每个段落的向量化结果。然后将判决书不同段落的向量化结果构成序列,再次送入深度学习网络进行编码,得到整个判决书的向量化结果。将用户输入信息送入深度学习网络进行编码,得到对应的向量化结果,计算它与判决书向量化结果的相似性,从中找出相似性满足要求的判决书。相比向量空间法,由于深度学习网络编码时考虑字或词汇与其前驱和后继的关系,所以这种方法能够更好地体现判决书的上下文语义特征。但是,和向量空间法类似,这种方法进行向量化编码时也会受到除案情描述外其它类型要素的影响,从而降低准确率。在上述四类方法中,向量空间法和深度学习法是目前使用较多的方法,结合二者进行类案推送是发展趋势,但是,这两种方法在执行时都受到除案情描述外其它类型要素的影响。所以要研究案情描述的判定方法,从判决书中提取出案情描述单独进行编码,从而消除其它类型要素的影响,提高类案推送的准确率。基于上述情况,本专利技术提出了一种基于案情描述的类案推送方法与装置。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于案情描述的类案推送方法与装置。本专利技术是通过如下技术方案实现的:一种基于案情描述的类案推送方法,其特征在于,包括以下步骤:S1:提取判决书案情描述借助深度学习模型对判决书各个段落进行层次编码,根据段落上下文编码形成特征,通过多层感知机进行二分类建模,通过训练生成案情描述判定模型,使用模型提取待处理判决书的案情描述;S2:构建判决书案情描述潜在语义空间为了提高信息检索的精确度,对描述词汇和案情描述关系的传统向量空间进行去噪处理,所构建的潜在语义空间是低维空间;S3:检索和推送判决书将用户输入的查询语句映射到潜在语义空间,计算其和所有案情描述向量的相似性,根据相似性进行排序,将TopK案情描述对应判决书推荐给用户。所述步骤S1中,先对每份判决书文本进行预处理,生成每份判决书段落的向量化编码,然后提取每份判决书所有段落的向量化特征,训练基于多层感知机的案情描述判定模型,使用模型提取待处理判决书的案情描述即可。所述步骤S1中,设判决书有m个段落,分别表示为P1、P2、……、Pm,对段落Pi进行向量化编码,其中i为不大于m的自然数;设段落Pi包含n个句子,分别表示为Si1、Si2、……、Sin,对句子Sij进行向量化编码,其中j为不大于n的自然数;判决书所有段落向量化编码结束后,返回判决书段落向量化编码。所述步骤S1中,对句子Sij进行向量化编码,包括以下步骤:S111:使用Word2Vec对分词词汇进行向量化编码;S112:使用Bi-LSTM处理词汇向量化序列;S113:从处理结果中提取句子Sij的向量化编码;S114:返回句子Sij的向量化编码。所述步骤S1中,对段落Pi进行向量化编码,是当段落Pi的n个句子全都完成向量化编码后,使用Bi-LSTM处理句子向量化序列,并从处理结果中提取段落Pi的向量化编码。所述步骤S1中,将每个段落的向量化特征和判定结果送入多层感知机,通过训练得到案情描述判定模型;具体包括以下步骤:S121:初始化多层感知机参数;S122:将所有判决书段落的向量化特征送入多层感知机输入层;S123:将对应判决书段落的判定结果送入多层感知机输出层;S124:根据收敛条件训练多层感知机模型;S125:返回多层感知机模型权重。所述步骤S2中,包括以下步骤:S21:构建“词汇-案情描述”频率矩阵;S22:构建“词汇-案情描述”TFIDF矩阵;S23:对“词汇-案情描述”TFIDF矩阵进行奇异值分解;S24:根据奇异值分解结果构建潜在语义空间。所述步骤S3中,包括以下步骤:S31:接收用户的查询语句;S32:将查询语句转换为查询向量;S33:将查询向量映射到潜在语义空间;S34:在潜在语义空间计算映射结果和案情描述的相关性;S35:将TopK案情描述对应判决书推荐给用户。该基于案情描述的类案推送装置,包括:判决书案情描述提取部件M1,用于获取判本文档来自技高网
...

【技术保护点】
1.一种基于案情描述的类案推送方法,其特征在于,包括以下步骤:/nS1:提取判决书案情描述/n借助深度学习模型对判决书各个段落进行层次编码,根据段落上下文编码形成特征,通过多层感知机进行二分类建模,通过训练生成案情描述判定模型,使用模型提取待处理判决书的案情描述;/nS2:构建判决书案情描述潜在语义空间/n为了提高信息检索的精确度,对描述词汇和案情描述关系的传统向量空间进行去噪处理,所构建的潜在语义空间是低维空间;/nS3:检索和推送判决书/n将用户输入的查询语句映射到潜在语义空间,计算其和所有案情描述向量的相似性,根据相似性进行排序,将TopK案情描述对应判决书推荐给用户。/n

【技术特征摘要】
1.一种基于案情描述的类案推送方法,其特征在于,包括以下步骤:
S1:提取判决书案情描述
借助深度学习模型对判决书各个段落进行层次编码,根据段落上下文编码形成特征,通过多层感知机进行二分类建模,通过训练生成案情描述判定模型,使用模型提取待处理判决书的案情描述;
S2:构建判决书案情描述潜在语义空间
为了提高信息检索的精确度,对描述词汇和案情描述关系的传统向量空间进行去噪处理,所构建的潜在语义空间是低维空间;
S3:检索和推送判决书
将用户输入的查询语句映射到潜在语义空间,计算其和所有案情描述向量的相似性,根据相似性进行排序,将TopK案情描述对应判决书推荐给用户。


2.根据权利要求1所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,先对每份判决书文本进行预处理,生成每份判决书段落的向量化编码,然后提取每份判决书所有段落的向量化特征,训练基于多层感知机的案情描述判定模型,使用模型提取待处理判决书的案情描述即可。


3.根据权利要求2所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,
设判决书有m个段落,分别表示为P1、P2、……、Pm,对段落Pi进行向量化编码,其中i为不大于m的自然数;设段落Pi包含n个句子,分别表示为Si1、Si2、……、Sin,对句子Sij进行向量化编码,其中j为不大于n的自然数;判决书所有段落向量化编码结束后,返回判决书段落向量化编码。


4.根据权利要求3所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,对句子Sij进行向量化编码,包括以下步骤:
S111:使用Word2Vec对分词词汇进行向量化编码;
S112:使用Bi-LSTM处理词汇向量化序列;
S113:从处理结果中提取句子Sij的向量化编码;
S114:返回句子Sij的向量化编码。


5.根据权利要求3所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,对段落Pi进行向量化编码,是当段落Pi的n个句子全都完成向量化编码后,使用Bi-LSTM处理句子向量化序列,并从处理结果中提取段落Pi的向量化编码。


6.根据权利要求2所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,...

【专利技术属性】
技术研发人员:王功明谢超王建华张尧臣
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1