当前位置: 首页 > 专利查询>南京大学专利>正文

一种交通事故损害赔偿中法律条文预测方法技术

技术编号:24252003 阅读:45 留言:0更新日期:2020-05-22 23:48
本发明专利技术涉及一种交通事故损害赔偿中法律条文预测方法。该方法基于特征提取对事实文本和法律条文进行数据清洗和特征选择,构建用于模型训练的特征和特征向量,使用TwitterLDA学习法条的文本表示,使用word2vec提取案情特征;在此基础上,应用支持向量机方法构建预测模型,生成一个法条预测模型svm‑Model;最后,将事实的特征向量输入到svm‑Model中,最终生成当前案情涉及到的法律条文。本发明专利技术目的在于解决目前存在的法律智能中通过事实对法条预测的难题,进而帮助公众更多地了解法律知识,清楚地了解案件的情况,还可以为行业提供辅助意见,避免个人主观性导致的差异,从而实现司法公正,提高社会效益。

A prediction method of legal provisions in traffic accident damages

【技术实现步骤摘要】
一种交通事故损害赔偿中法律条文预测方法
本专利技术属于法律智能领域,尤其适用于法律智能中的司法认知智能研究领域,其目的在于针对交通事故案件进行法律条文预测,是一种帮助公众了解法律知识与案件的情况,同时为法律行业提供辅助意见的方法。
技术介绍
随着大量司法数据的逐渐开放和NLP技术的飞速发展,司法文书已经成为学术研究领域的重要研究对象。目前关于法律智能的研究尚少,而且主要集中在基于机器学习和数据挖掘的法律推理和法律适应性方面,少量的研究是关于自动判决预测、相关法条预测、相似案件检索、证据分析等方面的。在现有的法律智能系统研究中,大部分是针对部分刑事指控,而不是整个案件,因此还不能投入使用。虽然在自动量刑方面取得了一些成果,但在同类案件的推荐和相关法律条文的预测方面仍缺乏进展,具有较大的研究意义和实用价值。今年发布了中国20年特大事故大数据分析报告,表明我国交通运输业仍是重大交通事故发生的集中区。同时,我国对重大安全事故的归责和处罚也越来越严厉。因此,对交通裁判文书的研究、特征的发现和运用具有重要的价值和意义。对此,本专利技术提出一种交通事故损害赔偿中法条预测方法。本专利技术通过两个不同的角度对法条进行预测:第一种角度是将预测问题看作是一个多标签分类问题。用事实的文件作为输入,把案件中引用的法条作为标签。在训练过程中,使用特征提取器将数据输入到特征集中,在这个步骤中,特征提取器使用word2vec。这些特征集将捕获每个输入的基本分类信息。然后将带有标签的特征对输入到机器学习算法中,建立分类模型。而在预测过程中,同样的特征提取器将那些从未见过的输入数据转移到一组特征中,然后输入到分类模型中,生成预测标签。第二种角度是参照法律条文内容的预测。预测思想是将事实的文本信息与法律条文的文本信息进行匹配,然后根据匹配的文本解决法律条文是否被引用,生成的二元问题。初始数据的形式是一个三元组,其中包括案情、法条、该法条是否被引用。每个案例和法条都需要进行分组,所以数据量是案例数量乘以法条数量,这是非常巨大的。因此,我们可以将法条作为关键字,计算其在案情上的分布概率。方法模型如图3所示,使用word2vec来发现案例描述的上下文,并使用TwitterLDA来理解法条的主要分布。通过该方法可以对法律条文进行预测,可以帮助法律智能其他方面的发展,不像大多数研究预测法条只通过法律事实或者仅仅视法条为多标签,本专利技术处理法条从语义的角度,找到一个完美的载体,TwitterLDA,帮助我们处理的特殊的简短和信息高度集中的文本。同时可以帮助公众更多地了解法律知识,清楚地了解案件的情况,还可以为行业提供辅助意见,避免个人主观性导致的差异,从而实现司法公正,提高社会效益。
技术实现思路
本专利技术通过提供一种交通事故损害赔偿中法律条文预测方法,来解决目前所存在的法律智能中对司法文书进行法律条文预测的问题,进而帮助公众了解案件情况及法律知识,为法律行业人士提供辅助意见。为达成上述目标,本专利技术提出一种交通事故损害赔偿中法律条文预测方法。首先将案情和法条分开输入;其次,进行特征提取,采用两种方法进行特征提取。一个是用案情文本作为输入,在分词之后,不用参考法条的内容进行预测。另一个是将案情的文本信息与法律条文的文本信息进行匹配,然后根据匹配的文本生成法律条文是否被引用的二元问题,初始数据的形式是一个三元组,其中包括案情、法条、案情是否引用法条,使用word2vec来发现案例描述的上下文,并使用TwitterLDA来理解法条的主题分布。具体而言,该方法包括下列步骤。1)文本预处理。将完整的语料分成若干词语,案情和法律条文需要分开输入,使用的是目前使用最广泛的中文分词方法——jieba分词法。标记词性并保留词性为n、vn、nt、ns和v的词。停用词被删除如标点和语气词。2)特征提取。用卡方检验进行特征提取,以法条作为分类标签。选择对每类影响最大的1000个单词组成一个单词包,然后对其进行去重。也可以导入外部词汇以提高准确性。由于词汇专业性很强,一些常见的单词也被添加入停用词,如原告、被告、事故等。本步骤的目的是避免由于分词结果导致矩阵太稀疏,消耗大量内存。首先构建word2vec模型,提取候选关键字的词向量。与传统的文本表示方法相比,词之间的语义关系在高维空间中得到更好的体现。让Dn表示案情的测试集,对于给定的文档D,经过分词、词性标注、重复数据删除、停用词删除等数据预处理操作,得到n个候选关键字D=[t1,t2,...,tn]。然后遍历它们,提取候选关键词WV=[v1,v2,...,vm]。可以使用K-Means对它们进行聚类,得到每个聚类的中心。本实验中的数据是关于交通事故损害赔偿的,因此一个聚类就足够了。计算单词的欧几里德距离和聚类中心,并进行排序,选择前N个单词作为文档的关键字。下面是欧几里得距离的方程:使用TwitterLDA可以更好地理解具有特征性、信息量大、篇幅短的法条的语义,所以使用LDA处理法条文本。LDA是一种基于贝叶斯模型的生成统计模型。每个文档都可以被看作是各种主题的混合体,其中每个文档都被认为有一组主题通过LDA分配给它。假设在Twitter中存在T个主题,对于主题t,单词分布由表示,而对于背景单词,单词分布由表示,θu表示用户u的主题分布,π是在背景单词和主题单词之间选择的伯努利分布。如算法1和下图所示。用户创建推文,首先基于θu选择主题,然后通过所选主题或背景模型选择一些单词来。如上所诉,采用两种方法进行特征提取。一个是用案情作为输入,将法条作为标签,在分词之后,不用参考法条的内容进行预测。法律条文的标签序号从1个到204个,每个案件的标签不超过7个。使用word2vec来训练案情文本。另一方法输入案情文本和法律条文,分别构建案情和法律条文的特征向量,使用word2vec来训练案情文本,使用TwitterLDA处理法条文本。本专利技术共涉及204篇法条,因此将主题数量设置为204篇,并在主题下打印特征词,构建一个词袋,用词袋过滤它的原始文本。案情文本必须转化成数值才能输入到模型中,将特征提取后的数据进行归一化,归一化的目的是提高缩放不变性机器学习模型的正确率,而且可以加快模型的收敛速度,提高训练速度。4)建立模型。在将法条视为标签的方法中,将特征向量对和标签对输入到机器学习算法中。这里可以使用一对多策略来处理多标签分类问题,在考虑语义意义的方法中,数据是以三元组的形式出现的:案情、法律条文、每篇法律条文是否引用。在分类方面,由于一个案件可以引用多个法律条文,法律条文的预测可以视为一个多标签分类问题。使用χ代表样本空间,R={λ1,λ2,...,λm}代表有限的标签集。假设样本x∈χ有关的一个子集R,L∈2R,R的这个子集被称为一组相关的标签。用向量y=(y1,y1,...ym)表示L,其中yi为0或1,一个多标记分类器h表示映射关系χ→y。为每个样本分配一个标签子集x∈χ。因此,分类器h的输出为向量h(x)=(h1(x),h2(x),...,h本文档来自技高网
...

【技术保护点】
1.一种交通事故损害赔偿中法律条文预测方法,其特征在于,该方法基于特征提取对事实文本和法律条文进行数据清洗和特征选择,构建用于模型训练的特征和特征向量,使用Twitter LDA学习法条的文本表示,使用word2vec提取案情特征;在此基础上,应用支持向量机方法构建预测模型,生成一个法条预测模型svm-Model;最后,将案情的特征向量输入到svm-Model中,最终生成当前案情涉及到的法律条文;该方法包括下列步骤:/n1)分词。给定文本,将完整的语料分成若干词语,事实和法律条文需要分开输入,使用的是目前使用最广泛的中文分词方法——jieba分词法。标记词性并保留词性为n、vn、nt、ns和v的词。删除停用词如标点和语气词。/n本步骤的目的是从为后续特征提取做准备。/n2)特征提取。用卡方检验进行特征选择,以法条作为分类标签。选择对每类影响最大的1000个单词组成一个词袋,然后对其进行去重。也可以导入外部词汇,以提高准确性。由于词汇专业性很强,一些常见的单词也被添加入停用词,如原告、被告、事故等。本步骤的目的是避免由于分词结果导致矩阵太稀疏,消耗大量内存。/n首先构建word2vec模型,提取候选关键字的词向量。与传统的文本表示方法相比,词之间的语义关系在高维空间中得到更好的体现。让D...

【技术特征摘要】
1.一种交通事故损害赔偿中法律条文预测方法,其特征在于,该方法基于特征提取对事实文本和法律条文进行数据清洗和特征选择,构建用于模型训练的特征和特征向量,使用TwitterLDA学习法条的文本表示,使用word2vec提取案情特征;在此基础上,应用支持向量机方法构建预测模型,生成一个法条预测模型svm-Model;最后,将案情的特征向量输入到svm-Model中,最终生成当前案情涉及到的法律条文;该方法包括下列步骤:
1)分词。给定文本,将完整的语料分成若干词语,事实和法律条文需要分开输入,使用的是目前使用最广泛的中文分词方法——jieba分词法。标记词性并保留词性为n、vn、nt、ns和v的词。删除停用词如标点和语气词。
本步骤的目的是从为后续特征提取做准备。
2)特征提取。用卡方检验进行特征选择,以法条作为分类标签。选择对每类影响最大的1000个单词组成一个词袋,然后对其进行去重。也可以导入外部词汇,以提高准确性。由于词汇专业性很强,一些常见的单词也被添加入停用词,如原告、被告、事故等。本步骤的目的是避免由于分词结果导致矩阵太稀疏,消耗大量内存。
首先构建word2vec模型,提取候选关键字的词向量。与传统的文本表示方法相比,词之间的语义关系在高维空间中得到更好的体现。让Dn表示测试事实,对于给定的文档D,经过分割、部分词性标注、重复数据删除、停止词删除等数据预处理操作,得到n个候选关键字D=[t1,t2,...,tn]。然后遍历它们,提取候选关键词WV=[v1,v2,...,vm]。可以使用K-Means对它们进行聚类,得到每个聚类的中心。本实验中的数据是关于交通事故损害赔偿的,因此一个聚类就足够了。计算单词的欧几里德距离和聚类中心,并进行排序,选择前N个单词作为文档的关键字。
下面是欧几里得距离的方程:



使用TwitterLDA可以更好地理解特征性、信息量大、篇幅短的法条的语义,所以使用LDA处理法条文本。LDA是一种基于贝叶斯模型的生成统计模型。每个文档都可以被看作是各种主题的混合体,其中每个文档都被认为有一组主题通过LDA分配给它。假设在Twitter中存在T个主题,对于主题t,单词分布由表示,而对于背景单词,单词分布由表示,θu表示用户u的主题分布,π是在背景单词和主题单词之间选择的伯努利分布。如算法1和下图所示。用户创建推文,首先基于θu选择主题,然后通过所选主题或背景模型选择一些单词来。
如上所诉,采用两种方法进行特征提取。一个是用案情作为输入,将法条作为标签,在分词之后,不用参考法条的内容进行预测。法律条文的标签序号从1个到204个,每个案件的标签不超过7个。使用word2vec来训练事实文本。另一方法输入事实文本和法律条文,分别构建事实和法律条文的特征向量,使用word2vec来训练事实文本,使用TwitterLDA处理法条文本。本发明共涉及204篇法条,因此将主题数量设置为204篇,并在主题下打印特征词,构建一个词袋,用词袋过滤它的原始文本。
事实文本必须转化成数值才能输入到模型中,将特征提取后的数据进行归一化,归一化的目的是提高缩放不变性机器学习模型的正确率,而且可以加快模型的收敛速度,提高训练速度。
4)建立模型。在将法条视为标签的方法中,将特征向量对和标签对输入到机器学习算法中。这里可以使用一对多策略来处理多标签分类问题。在考虑语义的方法中,可以用一个三元组来表示数据:案情、法律条文、每篇法律条文是否引用。
在分类方面,由于一个案件可以引用多个法律条文,法律条文的预测可以视为一个多标签分类问题。使用χ代表样本空间,R={λ1,λ2,...,λm}代表有限的标签集。假设样本x∈χ有关的一个子集R,L∈2R,R的这个子集被称为一组相关的标签。用向量y=(y1,y1,...ym)表示L,其中yi为0或1,...

【专利技术属性】
技术研发人员:何铁科严格陈振宇李玉莹
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1