【技术实现步骤摘要】
一种基于案情描述的类案推送方法与装置
本专利技术涉及文本检索与神经网络
,特别涉及一种基于案情描述的类案推送方法与装置。
技术介绍
智能革命时代背景下,“智慧法院”建设正如火如荼地进行,并已取得阶段性实效,各地兴建了大量智能辅助办案系统。其中,类案推送是这些系统的基础,它使用自然语言处理、人工智能等先进技术,处理司法领域的海量判决书,找到与当前案例类似的判决书,推送给相关的用户;它能够更好地发挥海量法律文书的实际价值,从而提高司法工作的效率。目前,常用的关系抽取方法包括下述四种:(1)关键字匹配法采用格式化输入方式,或者抽取查询语句关键字的方式,得到描述当前案例的关键字,并在判决书中进行检索。可以采用全文检索或关键字检索对每个判决书进行匹配,也可以采用倒排文档的方式在包含关键字的判决书集合中进行检索,从而缩小范围,提高检索速度。但是,这种方法只能对关键字进行字面匹配,无法理解关键字的语义特征,没有智能性。(2)向量空间法采用向量的形式表示判决书,即通过自然语言处理技术将每份判决书都表示为一条向量,该向量蕴含起因、经过、结果、人证、物证、法条、罪名、判决结果等要素。用户输入信息也表示为向量,通过计算该向量和判决书向量之间的相似性,获得和用户输入信息最相似的判决书。因为词向量包含语义信息,所以该方法可以理解用户输入信息中的语义特征,具有智能性。但是,判决书包含起诉、判决、案情描述、法律角色、法律机构等多种不同类型的要素,所以其向量化结果是上述各类要素向量化结果的混合体;而用户 ...
【技术保护点】
1.一种基于案情描述的类案推送方法,其特征在于,包括以下步骤:/nS1:提取判决书案情描述/n借助深度学习模型对判决书各个段落进行层次编码,根据段落上下文编码形成特征,通过多层感知机进行二分类建模,通过训练生成案情描述判定模型,使用模型提取待处理判决书的案情描述;/nS2:构建判决书案情描述潜在语义空间/n为了提高信息检索的精确度,对描述词汇和案情描述关系的传统向量空间进行去噪处理,所构建的潜在语义空间是低维空间;/nS3:检索和推送判决书/n将用户输入的查询语句映射到潜在语义空间,计算其和所有案情描述向量的相似性,根据相似性进行排序,将TopK案情描述对应判决书推荐给用户。/n
【技术特征摘要】
1.一种基于案情描述的类案推送方法,其特征在于,包括以下步骤:
S1:提取判决书案情描述
借助深度学习模型对判决书各个段落进行层次编码,根据段落上下文编码形成特征,通过多层感知机进行二分类建模,通过训练生成案情描述判定模型,使用模型提取待处理判决书的案情描述;
S2:构建判决书案情描述潜在语义空间
为了提高信息检索的精确度,对描述词汇和案情描述关系的传统向量空间进行去噪处理,所构建的潜在语义空间是低维空间;
S3:检索和推送判决书
将用户输入的查询语句映射到潜在语义空间,计算其和所有案情描述向量的相似性,根据相似性进行排序,将TopK案情描述对应判决书推荐给用户。
2.根据权利要求1所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,先对每份判决书文本进行预处理,生成每份判决书段落的向量化编码,然后提取每份判决书所有段落的向量化特征,训练基于多层感知机的案情描述判定模型,使用模型提取待处理判决书的案情描述即可。
3.根据权利要求2所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,
设判决书有m个段落,分别表示为P1、P2、……、Pm,对段落Pi进行向量化编码,其中i为不大于m的自然数;设段落Pi包含n个句子,分别表示为Si1、Si2、……、Sin,对句子Sij进行向量化编码,其中j为不大于n的自然数;判决书所有段落向量化编码结束后,返回判决书段落向量化编码。
4.根据权利要求3所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,对句子Sij进行向量化编码,包括以下步骤:
S111:使用Word2Vec对分词词汇进行向量化编码;
S112:使用Bi-LSTM处理词汇向量化序列;
S113:从处理结果中提取句子Sij的向量化编码;
S114:返回句子Sij的向量化编码。
5.根据权利要求3所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,对段落Pi进行向量化编码,是当段落Pi的n个句子全都完成向量化编码后,使用Bi-LSTM处理句子向量化序列,并从处理结果中提取段落Pi的向量化编码。
6.根据权利要求2所述的基于案情描述的类案推送方法,其特征在于:所述步骤S1中,...
【专利技术属性】
技术研发人员:王功明,谢超,王建华,张尧臣,
申请(专利权)人:浪潮软件集团有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。