当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于距离向量的裁判文书推荐方法技术

技术编号:20842240 阅读:16 留言:0更新日期:2019-04-13 08:42
本发明专利技术涉及一种基于距离向量的裁判文书推荐方法,包括:(1)数据预处理;(2)训练词向量;(3)针对具体任务建模:利用双向LSTM得到每个文书的特征向量,同时在做罪名分类的过程中将各个文书罪名的罪名号和对应该罪名的预测值以文档形式输出做保存,并与本发明专利技术中采用的测试数据集做索引关联,通过计算各个罪名映射到空间中的高维向量之间的余弦相似度,并以第一个犯罪事实描述作为基准,推荐出n个相同罪名下,犯罪情节相同或者相似的n个犯罪事实描述,用来协助法官在查找、处理相似案件时的判定罪名及刑期等工作,效果显著。

【技术实现步骤摘要】
一种基于距离向量的裁判文书推荐方法
本专利技术涉及一种基于距离向量的裁判文书推荐方法,属于长文本分析的

技术介绍
随着人工智能技术的发展与信息时代的到来,人们每天接触的消息量越来越大,逐渐从信息匮乏的时代走向了信息过载的时代,如何从中得到有效的信息显得尤为重要。由于目前对大数据的处理方法向着智能化、自动化的方向发展,各种工作也逐渐由智能机器所代替,人类社会与智能机器的交叉越来越多,在这样的时代背景下,智能、方便的人机交互变得越来越重要。在上述所讲到的消息中,不少都是以文本的形式存在的,比如监狱服刑人员的短信,法院裁判文书等等,促进了文本的产生与发展。文本分析技术旨在通过计算机技术对无结构的文本字符串中包含的词、语法、语义等信息进行表示、理解和抽取,挖掘和分析出其中存在的事实以及隐含的立场、观点和价值,进而推断出文本生成者的意图和目的。文本分析是典型的自然语言处理工作,是文本挖掘、信息检索领域的一个基本研究问题。在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性。在神经网络学习中,通过将word映射成连续(高维)向量,这样通过训练,就可以把长文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本上的相似度。目前的文本分析技术多为短文本分析技术,面对多为长文本的裁判文书,语法不规则,繁冗复杂,罪名众多,且罪名由多种因素决定的情况下,现有技术难以有效解决目前面临的问题。如何在海量的数据中,找到有效的与当前处理案件罪名相同且情节相同或者相似的案件描述是本专利技术要处理的问题。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于距离向量的裁判文书推荐方法。专利技术概述:本专利技术解决的问题主要是长文本的多分类以及推荐问题。将依据法院文书犯罪事实描述,将罪名的分类以及推荐任务转换为根据语义相似度的长文本匹配问题以及各文本在空间中的距离向量问题,同时在判定罪名时对其进行推荐。在神经网络学习中,通过将word映射成连续(高维)向量,这样通过训练,就可以把长文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本上的相似度。术语解释:1、CBOW神经网络模型,word2vec中的CBOW神经网络模型,输入层是由one-hot编码的输入上下文{x1x1,…,xCxC}组成,其中窗口大小为C,词汇表大小为V。隐藏层是N维的向量。最后输出层是也被one-hot编码的输出单词yy。被one-hot编码的输入向量通过一个V×NV×N维的权重矩阵WW连接到隐藏层;隐藏层通过一个N×VN×V的权重矩阵W′W′连接到输出层。2、余弦相似度:余弦相似度用空间中两个向量夹角的余弦值作为衡量两个个体间差异大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似;如果a和b向量夹角较大,或者反方向,可以说两个向量有很低的相似性,或者两个向量代表的文本基本不相似。本专利技术的技术方案为:一种基于距离向量的裁判文书推荐的方法,包括步骤如下:(1)数据预处理:本专利技术申请采用公开的法院文书数据集进行结果评测,由于公开的数据集是原始数据集,不符合模型的输入要求,需对数据进行预处理。对原始数据进行筛选,原始数据为裁判文书,将裁判文书中包含的犯罪事实描述部分利用规则的方法抽取出来,做中文分词处理,得到文书的全部数据集;将文书的全部数据集打乱后,分成若干份,设定为N,其中N-1份做训练数据集,剩下1份做测试数据集;(2)训练词向量,获取语义信息:将上述步骤(1)得到的训练数据集输入CBOW神经网络模型进行训练,得到训练集中每一个词相应的词向量,构成词向量表;进一步优选的,CBOW神经网络模型中,训练窗口大小为8(即考虑一个词的前八个和后八个),每个单词的向量维度可以自行指定,本模型使用的是200,迭代次数是15次。CBOW神经网络模型中使用的参数大小可根据具体模型的需要自行指定。(3)针对具体任务建立双向LSTM模型,利用双向LSTM(双向循环神经网络)编码每个长文本的语义信息:单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息,通过双向LSTM获取每个长文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;上下文信息是由整个句子提供的,自然包含比较抽象的语义信息(句子的意思),这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势。进一步优选的,罪名作为远程标签,并附上10个属性,包括ProfitPurpose(以营利为目的)、BuyingandSelling(买卖关系)、Death(死亡)、Violence(暴力行为)、StateOrgan(国家机关)、PublicPlace(公共场所)、IllegalPossession(非法占有)、PhysicalInjury(人身伤害)、IntentionalCrime(故意犯罪)和Production(涉及生产过程);远程标签及每个属性标签的取值为0、1或者2,0表示文本中不具备该标签特征,1表示文本中具备该标签特征,2表示文本中该特征不可用;将每个文本所对应的罪名及10个属性与上述全部数据集做连接,得到符合双向LSTM模型输入的数据集;(4)训练模型,通过步骤(3)建立的双向LSTM模型获取各个文本的特征向量,送入softmax分类器,对罪名进行分类;所述步骤(3)中,双向LSTM模型通过构造两个循环神经网络实现以两个不同的方向获取文本信息,同时这两层都连接相同的输入层。这个结构能够提供给上一层中每个单元结构完整的上下文信息,其中一层在同一时刻向前传递,更新所有隐藏层的信息;另一层信息的传播与上一层相反,通过先计算输出层然后得到不同方向的隐藏层值;由双层双向LSTM模型训练得到的输出作为罪名分类的特征向量,在双向LSTM之后,经过两层全连接层,激活函数为RELU,将第二层全连接层的输出作为第三层全连接层的输入,该激活函数为softmax函数,对罪名进行分类。根据本专利技术优选的,在做罪名分类的过程中,将各项罪名以及其对应的属性预测值以文档的形式做输出保存,属性预测值是指属性标签的取值,并与本专利技术中采用的测试数据集做索引关联,通过计算各个罪名映射到空间中的高维向量之间的余弦相似度,并以第一个犯罪事实描述作为基准犯罪事实描述,通过将两两向量之间的余弦相似度从大到小进行排序,推荐出在相同罪名下,犯罪情节相同或者相似的前n个犯罪事实描述,n的取值范围为15-20。用来协助法官在查找、处理相似案件时的判定罪名及刑期等工作。进一步优选的,假设文本X和文本Y对应的向量分别为x和y,则余弦相似度的计算公式如式(Ⅰ)所示:根据本专利技术优选的,所述步骤(2),通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;包括步骤如下:A、求取t时刻LSTM单元中的输入门的值it,LS本文档来自技高网
...

【技术保护点】
1.一种基于距离向量的裁判文书推荐的方法,其特征在于,包括步骤如下:(1)数据预处理:对原始数据进行筛选,原始数据为裁判文书,将裁判文书中包含的犯罪事实描述部分利用规则的方法抽取出来,做中文分词处理,得到文书的全部数据集;将文书的全部数据集打乱后,分成若干份,设定为N,其中N‑1份做训练数据集,剩下1份做测试数据集;(2)训练词向量,获取语义信息:将上述步骤(1)得到的训练数据集输入CBOW神经网络模型进行训练,得到训练集中每一个词相应的词向量,构成词向量表;(3)针对具体任务建立双向LSTM模型,利用双向LSTM编码每个长文本的语义信息:通过双向LSTM获取每个长文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;(4)训练模型,通过步骤(3)建立的双向LSTM模型获取各个文本的特征向量,送入softmax分类器,对罪名进行分类。

【技术特征摘要】
2018.10.29 CN 20181126845751.一种基于距离向量的裁判文书推荐的方法,其特征在于,包括步骤如下:(1)数据预处理:对原始数据进行筛选,原始数据为裁判文书,将裁判文书中包含的犯罪事实描述部分利用规则的方法抽取出来,做中文分词处理,得到文书的全部数据集;将文书的全部数据集打乱后,分成若干份,设定为N,其中N-1份做训练数据集,剩下1份做测试数据集;(2)训练词向量,获取语义信息:将上述步骤(1)得到的训练数据集输入CBOW神经网络模型进行训练,得到训练集中每一个词相应的词向量,构成词向量表;(3)针对具体任务建立双向LSTM模型,利用双向LSTM编码每个长文本的语义信息:通过双向LSTM获取每个长文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;(4)训练模型,通过步骤(3)建立的双向LSTM模型获取各个文本的特征向量,送入softmax分类器,对罪名进行分类。2.根据权利要求1所述的一种基于距离向量的裁判文书推荐的方法,其特征在于,CBOW神经网络模型中,训练窗口大小为8,每个单词的向量维度是200,迭代次数是15次。3.根据权利要求1所述的一种基于距离向量的裁判文书推荐的方法,其特征在于,罪名作为远程标签,并附上10个属性,包括ProfitPurpose、BuyingandSelling、Death、Violence、StateOrgan、PublicPlace、IllegalPossession、PhysicalInjury、IntentionalCrime和Production;远程标签及每个属性标签的取值为0、1或者2,0表示文本中不具备该标签特征,1表示文本中具备该标签特征,2表示文本中该特征不可用;将每个文本所对应的罪名及10个属性与上述全部数据集做连接,得到符合双向LSTM模型输入的数据集。4.根据权利要求3所述的一种基于距离向量的裁判文书推荐的方法,其特征在于,所述步骤(4)中,在做罪名分类的过程中,将各项罪名以及其对应的属性预测值以文档的形式做输出保存,属性预测值是指属性标签的取值,并与测试数据集做索引...

【专利技术属性】
技术研发人员:李玉军靳丽冀先朋
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1