一种基于案情描述的类案推送方法与装置制造方法及图纸

技术编号：25396763 阅读：122 留言：0更新日期：2020-08-25 23:01

本发明专利技术特别涉及一种基于案情描述的类案推送方法与装置。该基于案情描述的类案推送方法，首先借助深度学习模型对判决书各个段落进行层次编码，根据段落上下文编码形成特征，通过多层感知机进行二分类建模，通过训练生成案情描述判定模型，使用模型提取待处理判决书的案情描述；然后构建判决书案情描述潜在语义空间；最后将用户输入的查询语句映射到潜在语义空间，计算其和所有案情描述向量的相似性，根据相似性进行排序，将TopK案情描述对应判决书推荐给用户。该基于案情描述的类案推送方法与装置，不仅减少了除案情描述外其它类型要素的影响，提高了类案推送的效果，还能够从判决书中准确提取案情描述，适宜推广应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于案情描述的类案推送方法与装置
本专利技术涉及文本检索与神经网络
，特别涉及一种基于案情描述的类案推送方法与装置。
技术介绍
智能革命时代背景下，“智慧法院”建设正如火如荼地进行，并已取得阶段性实效，各地兴建了大量智能辅助办案系统。其中，类案推送是这些系统的基础，它使用自然语言处理、人工智能等先进技术，处理司法领域的海量判决书，找到与当前案例类似的判决书，推送给相关的用户；它能够更好地发挥海量法律文书的实际价值，从而提高司法工作的效率。目前，常用的关系抽取方法包括下述四种：(1)关键字匹配法采用格式化输入方式，或者抽取查询语句关键字的方式，得到描述当前案例的关键字，并在判决书中进行检索。可以采用全文检索或关键字检索对每个判决书进行匹配，也可以采用倒排文档的方式在包含关键字的判决书集合中进行检索，从而缩小范围，提高检索速度。但是，这种方法只能对关键字进行字面匹配，无法理解关键字的语义特征，没有智能性。(2)向量空间法采用向量的形式表示判决书，即通过自然语言处理技术将每份判决书都表示为一条向量，该向量蕴含起因、经过、结果、人证、物证、法条、罪名、判决结果等要素。用户输入信息也表示为向量，通过计算该向量和判决书向量之间的相似性，获得和用户输入信息最相似的判决书。因为词向量包含语义信息，所以该方法可以理解用户输入信息中的语义特征，具有智能性。但是，判决书包含起诉、判决、案情描述、法律角色、法律机构等多种不同类型的要素，所以其向量化结果是上述各类要素向量化结果的混合体；而用户...

【技术保护点】
1.一种基于案情描述的类案推送方法，其特征在于，包括以下步骤：/nS1：提取判决书案情描述/n借助深度学习模型对判决书各个段落进行层次编码，根据段落上下文编码形成特征，通过多层感知机进行二分类建模，通过训练生成案情描述判定模型，使用模型提取待处理判决书的案情描述；/nS2：构建判决书案情描述潜在语义空间/n为了提高信息检索的精确度，对描述词汇和案情描述关系的传统向量空间进行去噪处理，所构建的潜在语义空间是低维空间；/nS3：检索和推送判决书/n将用户输入的查询语句映射到潜在语义空间，计算其和所有案情描述向量的相似性，根据相似性进行排序，将TopK案情描述对应判决书推荐给用户。/n

【技术特征摘要】
1.一种基于案情描述的类案推送方法，其特征在于，包括以下步骤：
S1：提取判决书案情描述
借助深度学习模型对判决书各个段落进行层次编码，根据段落上下文编码形成特征，通过多层感知机进行二分类建模，通过训练生成案情描述判定模型，使用模型提取待处理判决书的案情描述；
S2：构建判决书案情描述潜在语义空间
为了提高信息检索的精确度，对描述词汇和案情描述关系的传统向量空间进行去噪处理，所构建的潜在语义空间是低维空间；
S3：检索和推送判决书
将用户输入的查询语句映射到潜在语义空间，计算其和所有案情描述向量的相似性，根据相似性进行排序，将TopK案情描述对应判决书推荐给用户。

2.根据权利要求1所述的基于案情描述的类案推送方法，其特征在于：所述步骤S1中，先对每份判决书文本进行预处理，生成每份判决书段落的向量化编码，然后提取每份判决书所有段落的向量化特征，训练基于多层感知机的案情描述判定模型，使用模型提取待处理判决书的案情描述即可。

3.根据权利要求2所述的基于案情描述的类案推送方法，其特征在于：所述步骤S1中，
设判决书有m个段落，分别表示为P1、P2、……、Pm，对段落Pi进行向量化编码，其中i为不大于m的自然数；设段落Pi包含n个句子，分别表示为Si1、Si2、……、Sin，对句子Sij进行向量化编码，其中j为不大于n的自然数；判决书所有段落向量化编码结束后，返回判决书段落向量化编码。

4.根据权利要求3所述的基于案情描述的类案推送方法，其特征在于：所述步骤S1中，对句子Sij进行向量化编码，包括以下步骤：
S111：使用Word2Vec对分词词汇进行向量化编码；
S112：使用Bi-LSTM处理词汇向量化序列；
S113：从处理结果中提取句子Sij的向量化编码；
S114：返回句子Sij的向量化编码。

5.根据权利要求3所述的基于案情描述的类案推送方法，其特征在于：所述步骤S1中，对段落Pi进行向量化编码，是当段落Pi的n个句子全都完成向量化编码后，使用Bi-LSTM处理句子向量化序列，并从处理结果中提取段落Pi的向量化编码。

6.根据权利要求2所述的基于案情描述的类案推送方法，其特征在于：所述步骤S1中，...

【专利技术属性】
技术研发人员：王功明，谢超，王建华，张尧臣，
申请(专利权)人：浪潮软件集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人