【技术实现步骤摘要】
一种交通事故损害赔偿中法律条文预测方法
本专利技术属于法律智能领域,尤其适用于法律智能中的司法认知智能研究领域,其目的在于针对交通事故案件进行法律条文预测,是一种帮助公众了解法律知识与案件的情况,同时为法律行业提供辅助意见的方法。
技术介绍
随着大量司法数据的逐渐开放和NLP技术的飞速发展,司法文书已经成为学术研究领域的重要研究对象。目前关于法律智能的研究尚少,而且主要集中在基于机器学习和数据挖掘的法律推理和法律适应性方面,少量的研究是关于自动判决预测、相关法条预测、相似案件检索、证据分析等方面的。在现有的法律智能系统研究中,大部分是针对部分刑事指控,而不是整个案件,因此还不能投入使用。虽然在自动量刑方面取得了一些成果,但在同类案件的推荐和相关法律条文的预测方面仍缺乏进展,具有较大的研究意义和实用价值。今年发布了中国20年特大事故大数据分析报告,表明我国交通运输业仍是重大交通事故发生的集中区。同时,我国对重大安全事故的归责和处罚也越来越严厉。因此,对交通裁判文书的研究、特征的发现和运用具有重要的价值和意义。对此,本专利技术提出一种交通事故损害赔偿中法条预测方法。本专利技术通过两个不同的角度对法条进行预测:第一种角度是将预测问题看作是一个多标签分类问题。用事实的文件作为输入,把案件中引用的法条作为标签。在训练过程中,使用特征提取器将数据输入到特征集中,在这个步骤中,特征提取器使用word2vec。这些特征集将捕获每个输入的基本分类信息。然后将带有标签的特征对输入到机器学习算法中,建立分类模型。而 ...
【技术保护点】
1.一种交通事故损害赔偿中法律条文预测方法,其特征在于,该方法基于特征提取对事实文本和法律条文进行数据清洗和特征选择,构建用于模型训练的特征和特征向量,使用Twitter LDA学习法条的文本表示,使用word2vec提取案情特征;在此基础上,应用支持向量机方法构建预测模型,生成一个法条预测模型svm-Model;最后,将案情的特征向量输入到svm-Model中,最终生成当前案情涉及到的法律条文;该方法包括下列步骤:/n1)分词。给定文本,将完整的语料分成若干词语,事实和法律条文需要分开输入,使用的是目前使用最广泛的中文分词方法——jieba分词法。标记词性并保留词性为n、vn、nt、ns和v的词。删除停用词如标点和语气词。/n本步骤的目的是从为后续特征提取做准备。/n2)特征提取。用卡方检验进行特征选择,以法条作为分类标签。选择对每类影响最大的1000个单词组成一个词袋,然后对其进行去重。也可以导入外部词汇,以提高准确性。由于词汇专业性很强,一些常见的单词也被添加入停用词,如原告、被告、事故等。本步骤的目的是避免由于分词结果导致矩阵太稀疏,消耗大量内存。/n首先构建word2vec模 ...
【技术特征摘要】
1.一种交通事故损害赔偿中法律条文预测方法,其特征在于,该方法基于特征提取对事实文本和法律条文进行数据清洗和特征选择,构建用于模型训练的特征和特征向量,使用TwitterLDA学习法条的文本表示,使用word2vec提取案情特征;在此基础上,应用支持向量机方法构建预测模型,生成一个法条预测模型svm-Model;最后,将案情的特征向量输入到svm-Model中,最终生成当前案情涉及到的法律条文;该方法包括下列步骤:
1)分词。给定文本,将完整的语料分成若干词语,事实和法律条文需要分开输入,使用的是目前使用最广泛的中文分词方法——jieba分词法。标记词性并保留词性为n、vn、nt、ns和v的词。删除停用词如标点和语气词。
本步骤的目的是从为后续特征提取做准备。
2)特征提取。用卡方检验进行特征选择,以法条作为分类标签。选择对每类影响最大的1000个单词组成一个词袋,然后对其进行去重。也可以导入外部词汇,以提高准确性。由于词汇专业性很强,一些常见的单词也被添加入停用词,如原告、被告、事故等。本步骤的目的是避免由于分词结果导致矩阵太稀疏,消耗大量内存。
首先构建word2vec模型,提取候选关键字的词向量。与传统的文本表示方法相比,词之间的语义关系在高维空间中得到更好的体现。让Dn表示测试事实,对于给定的文档D,经过分割、部分词性标注、重复数据删除、停止词删除等数据预处理操作,得到n个候选关键字D=[t1,t2,...,tn]。然后遍历它们,提取候选关键词WV=[v1,v2,...,vm]。可以使用K-Means对它们进行聚类,得到每个聚类的中心。本实验中的数据是关于交通事故损害赔偿的,因此一个聚类就足够了。计算单词的欧几里德距离和聚类中心,并进行排序,选择前N个单词作为文档的关键字。
下面是欧几里得距离的方程:
使用TwitterLDA可以更好地理解特征性、信息量大、篇幅短的法条的语义,所以使用LDA处理法条文本。LDA是一种基于贝叶斯模型的生成统计模型。每个文档都可以被看作是各种主题的混合体,其中每个文档都被认为有一组主题通过LDA分配给它。假设在Twitter中存在T个主题,对于主题t,单词分布由表示,而对于背景单词,单词分布由表示,θu表示用户u的主题分布,π是在背景单词和主题单词之间选择的伯努利分布。如算法1和下图所示。用户创建推文,首先基于θu选择主题,然后通过所选主题或背景模型选择一些单词来。
如上所诉,采用两种方法进行特征提取。一个是用案情作为输入,将法条作为标签,在分词之后,不用参考法条的内容进行预测。法律条文的标签序号从1个到204个,每个案件的标签不超过7个。使用word2vec来训练事实文本。另一方法输入事实文本和法律条文,分别构建事实和法律条文的特征向量,使用word2vec来训练事实文本,使用TwitterLDA处理法条文本。本发明共涉及204篇法条,因此将主题数量设置为204篇,并在主题下打印特征词,构建一个词袋,用词袋过滤它的原始文本。
事实文本必须转化成数值才能输入到模型中,将特征提取后的数据进行归一化,归一化的目的是提高缩放不变性机器学习模型的正确率,而且可以加快模型的收敛速度,提高训练速度。
4)建立模型。在将法条视为标签的方法中,将特征向量对和标签对输入到机器学习算法中。这里可以使用一对多策略来处理多标签分类问题。在考虑语义的方法中,可以用一个三元组来表示数据:案情、法律条文、每篇法律条文是否引用。
在分类方面,由于一个案件可以引用多个法律条文,法律条文的预测可以视为一个多标签分类问题。使用χ代表样本空间,R={λ1,λ2,...,λm}代表有限的标签集。假设样本x∈χ有关的一个子集R,L∈2R,R的这个子集被称为一组相关的标签。用向量y=(y1,y1,...ym)表示L,其中yi为0或1,...
【专利技术属性】
技术研发人员:何铁科,严格,陈振宇,李玉莹,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。