一种基于距离向量的裁判文书推荐方法技术

技术编号：20842240 阅读：16 留言：0更新日期：2019-04-13 08:42

本发明专利技术涉及一种基于距离向量的裁判文书推荐方法，包括：(1)数据预处理；(2)训练词向量；(3)针对具体任务建模：利用双向LSTM得到每个文书的特征向量，同时在做罪名分类的过程中将各个文书罪名的罪名号和对应该罪名的预测值以文档形式输出做保存，并与本发明专利技术中采用的测试数据集做索引关联，通过计算各个罪名映射到空间中的高维向量之间的余弦相似度，并以第一个犯罪事实描述作为基准，推荐出n个相同罪名下，犯罪情节相同或者相似的n个犯罪事实描述，用来协助法官在查找、处理相似案件时的判定罪名及刑期等工作，效果显著。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于距离向量的裁判文书推荐方法
本专利技术涉及一种基于距离向量的裁判文书推荐方法，属于长文本分析的

技术介绍
随着人工智能技术的发展与信息时代的到来，人们每天接触的消息量越来越大，逐渐从信息匮乏的时代走向了信息过载的时代，如何从中得到有效的信息显得尤为重要。由于目前对大数据的处理方法向着智能化、自动化的方向发展，各种工作也逐渐由智能机器所代替，人类社会与智能机器的交叉越来越多，在这样的时代背景下，智能、方便的人机交互变得越来越重要。在上述所讲到的消息中，不少都是以文本的形式存在的，比如监狱服刑人员的短信，法院裁判文书等等，促进了文本的产生与发展。文本分析技术旨在通过计算机技术对无结构的文本字符串中包含的词、语法、语义等信息进行表示、理解和抽取，挖掘和分析出其中存在的事实以及隐含的立场、观点和价值，进而推断出文本生成者的意图和目的。文本分析是典型的自然语言处理工作，是文本挖掘、信息检索领域的一个基本研究问题。在自然语言处理过程中，经常会涉及到如何度量两个文本之间的相似性，我们都知道文本是一种高维的语义空间，如何对其进行抽象分解，从而能够站在数学角度去量化其相似性。在神经网络学习中，通过将word映射成连续(高维)向量，这样通过训练，就可以把长文本内容的处理简化为K维向量空间中向量运算，而向量空间上的相似度可以用来表示文本上的相似度。目前的文本分析技术多为短文本分析技术，面对多为长文本的裁判文书，语法不规则，繁冗复杂，罪名众多，且罪名由多种因素决定的情况下，现有技术难以有效解决目前面临的问题。如何在海量的数据中，找到有效的与当前处理案件罪名相同且...

【技术保护点】
1.一种基于距离向量的裁判文书推荐的方法，其特征在于，包括步骤如下：(1)数据预处理：对原始数据进行筛选，原始数据为裁判文书，将裁判文书中包含的犯罪事实描述部分利用规则的方法抽取出来，做中文分词处理，得到文书的全部数据集；将文书的全部数据集打乱后，分成若干份，设定为N，其中N‑1份做训练数据集，剩下1份做测试数据集；(2)训练词向量，获取语义信息：将上述步骤(1)得到的训练数据集输入CBOW神经网络模型进行训练，得到训练集中每一个词相应的词向量，构成词向量表；(3)针对具体任务建立双向LSTM模型，利用双向LSTM编码每个长文本的语义信息：通过双向LSTM获取每个长文本的上文信息和下文信息，即获取该文本数据的语义特征和时序特征；双向LSTM包括两个方向不同的LSTM，一个LSTM按照句子中词的顺序从前往后读取数据，获得上文信息；另一个LSTM从后往前按照句子词序的反方向读取数据，获得下文信息；(4)训练模型，通过步骤(3)建立的双向LSTM模型获取各个文本的特征向量，送入softmax分类器，对罪名进行分类。

【技术特征摘要】
2018.10.29 CN 20181126845751.一种基于距离向量的裁判文书推荐的方法，其特征在于，包括步骤如下：(1)数据预处理：对原始数据进行筛选，原始数据为裁判文书，将裁判文书中包含的犯罪事实描述部分利用规则的方法抽取出来，做中文分词处理，得到文书的全部数据集；将文书的全部数据集打乱后，分成若干份，设定为N，其中N-1份做训练数据集，剩下1份做测试数据集；(2)训练词向量，获取语义信息：将上述步骤(1)得到的训练数据集输入CBOW神经网络模型进行训练，得到训练集中每一个词相应的词向量，构成词向量表；(3)针对具体任务建立双向LSTM模型，利用双向LSTM编码每个长文本的语义信息：通过双向LSTM获取每个长文本的上文信息和下文信息，即获取该文本数据的语义特征和时序特征；双向LSTM包括两个方向不同的LSTM，一个LSTM按照句子中词的顺序从前往后读取数据，获得上文信息；另一个LSTM从后往前按照句子词序的反方向读取数据，获得下文信息；(4)训练模型，通过步骤(3)建立的双向LSTM模型获取各个文本的特征向量，送入softmax分类器，对罪名进行分类。2.根据权利要求1所述的一种基于距离向量的裁判文书推荐的方法，其特征在于，CBOW神经网络模型中，训练窗口大小为8，每个单词的向量维度是200，迭代次数是15次。3.根据权利要求1所述的一种基于距离向量的裁判文书推荐的方法，其特征在于，罪名作为远程标签，并附上10个属性，包括ProfitPurpose、BuyingandSelling、Death、Violence、StateOrgan、PublicPlace、IllegalPossession、PhysicalInjury、IntentionalCrime和Production；远程标签及每个属性标签的取值为0、1或者2，0表示文本中不具备该标签特征，1表示文本中具备该标签特征，2表示文本中该特征不可用；将每个文本所对应的罪名及10个属性与上述全部数据集做连接，得到符合双向LSTM模型输入的数据集。4.根据权利要求3所述的一种基于距离向量的裁判文书推荐的方法，其特征在于，所述步骤(4)中，在做罪名分类的过程中，将各项罪名以及其对应的属性预测值以文档的形式做输出保存，属性预测值是指属性标签的取值，并与测试数据集做索引...

【专利技术属性】
技术研发人员：李玉军，靳丽，冀先朋，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人