一种法律法条引用信息抽取系统技术方案

技术编号:26689794 阅读:68 留言:0更新日期:2020-12-12 02:39
本发明专利技术通过人工智能领域的方法,实现了一种法律法条引用信息抽取系统,系统架构分为输入模块、基于DFA与深度文本匹配模型和输出模块,通过输入模块读取外部输入的文本信息,并作为待匹配文本输入所述基于DFA与深度文本匹配模型,基于DFA与深度文本匹配模型运算,利用DFA模型抽取文本中引用的法律和法条,使用TF‑IDF选取特征词来区分同一部法律历史版本的法条,通过计算特征词序列之间的相似度来筛选可能匹配上的候选法条,消除了数据倾斜的问题,将候选法条输入MV‑LSTM计算得到文本与法条的语义相似度,根据语义相似度来判断文本与法条是否匹配,解决了法律法条引用信息的抽取问题。

【技术实现步骤摘要】
一种法律法条引用信息抽取系统
本专利技术涉及人工智能领域,尤其涉及一种法律法条引用信息抽取系统。
技术介绍
法律法条引用信息的抽取是研究法律相关文本的基础,与该任务相关的工作有命名实体识别与消岐、法律文本检索和深度文本匹配等。从文本中抽取引用的法律以及法条,类似于实体识别与消歧任务,在这方面已有许多相关工作。命名实体识别的研究方向经历了从早期基于规则的方法到统计的方法,再到现在基于深度学习方法的转变。在法律法条抽取任务中,由于多版本法律的存在,实体消歧的任务主要是根据上下文判断当前文本所指向的同一部法律下的具体版本。传统的消歧方法主要有基于知识的方法以及数据驱动的方法。例如利用在线词汇知识库构造基于图的词义表示法的SSI算法进行词义消歧,现在大多的实体链接系统使用监督的方法进行消歧,其中包括分类、排序、基于图等方法。再例如通过构造词袋和实体共现的特征向量,使用SVM等方法,计算余弦相似度来选取匹配的实体。排序方面则有listwise和pairwise的排序方法,相比分类方法能够取得较好的效果。在文本匹配方面,与传统方法相比,近年来深度模型有较多的研究。目前流行的深度文本匹配模型有DSSM,ARC-I,ARC-II,KNRM,Cov-KNRM,ANMM,DUET,MV-LSTM等。DSSM模型使用BOW的方法表示文本,由余弦距离来表示两个语义向量的距离,基于全连接网络,使用Wordhashing对单词进行处理,使得单词数量有显著的下降,是较为早期的语义匹配模型。相比DSSM,ARC-I通过卷积、池化以及拼接向量来表示文本,然后计算特征的相似度。ARC-II模型是对ARC-I模型的改进,计算文本特征时提取出了两段文本交互的特征。KNRM与之前模型不同的地方是使用了高斯核函数做池化。Cov-KNRM不同于KNRM,增加了卷积操作,能够提取到更细粒度的语义实体。ANMM使用了基于Attention神经网络的短文回答排序模型。但上述现有技术存在的问题是:由于法律法条引用信息的抽取具有其特殊性,一个是法律多版本的问题,另一个是隐式引用的问题。目前的命名实体识别算法面向的是一般实体,由于法律法条抽取的特殊性难以适用;此外法律法条匹配的稀疏性造成数据倾斜问题,无法直接训练出有效的深度匹配模型。大部分现有的方法无法解决法律法条引用信息的抽取问题,尤其是属于大陆法系的中国法律。在文本的法律法条抽取任务中,待匹配的文本引用的法律法条数量不同、表达方式不同造成需要大量各种类型训练数据的问题,以及待匹配的法律法条数量众多,实际匹配数量只有一两条法条造成的数据倾斜问题,直接使用深度文本匹配模型并不能实现高精度的抽取质量。
技术实现思路
为此,本专利技术提出了一种法律法条引用信息抽取系统,包括输入模块、基于DFA与深度文本匹配模型和输出模块,其中,所述输入模块读取外部输入的文本信息,并作为待匹配文本输入所述基于DFA与深度文本匹配模型,所述基于DFA与深度文本匹配模型运算后,对法条进行识别和提取,通过所述输出模块输出为文本;具体地,所述基于DFA与深度文本匹配模型首先将待匹配文本输入文本预处理模块,去除文本中包含的特殊字符和停用词,之后输入DFA识别模块根据法律法条名识别法律文本,当所述DFA识别模块根据所述法律法条名识别成功,则将信息输入历史版本区分模块进行历史版本区分,最后得到匹配结果;当所述DFA识别模块识别失败,则将信息输入特征词序列匹配模块,利用所述法律法条名,在该法律的所有法条中计算序列的相似度,根据相似度筛选出可能匹配的法条集合,由深度文本匹配模型进一步匹配,最后得到匹配结果。所述DFA识别模块的具体实现方式为:定义法律法条识别确定有限自动机DFA为M=(S,Σ,δ,S0,F),其中状态集S={S0,S1,S2},有穷字母表Σ=A∪B,终态集F={S1,S2},A为法律名称集合,B为单一法条序号数或多个法条序号数组成的区间的法条数集合,当所述文本预处理模块的输出信息输入所述DFA识别模块时,其即定义为状态集中的S0,进而将所述文本预处理模块的输出信息与所述法律名称集合中各个元素进行匹配,这一过程即为从S0到S1的状态转换,作为法律名的识别过程,当所述文本预处理模块的输出信息与某一元素匹配后,则进一步与法条数集合中元素匹配,这一过程即从S1到S2的状态转换,作为法条数的识别过程,当所述法条数的识别过程失败时,则退回所述法律名的识别过程重新进行进一步的法律名称匹配。所述历史版本区分模块用于区分已识别法条号的不同历史版本,具体地,通过统计词频计算TF-IDF选取出每个不同版本法条的特征词,统计特征词在待匹配文本中出现的频次,并加权计算的每个法条的匹配得分,选取法条的所述特征词的时候以法条为单位,取出该法律所有历史版本中符合的法条进行分词、统计词频,将初步筛选后符合的法条当做文档d,则满足条件的法条集合D={d1,d2,…,dm},所有文档分词后形成的词集合W={w1,w2,…,wn},则计算第i个词在第j个文档中的TF-IDF方法为:TF-IDF(i,j)=TF(i,j)*IDF(i)其中1≤i≤|V|,1≤j≤m,1≤t≤|D|,根据TF-IDF的值选取每个文档中前k个词作为该法条的特征词,假设第j个法条文档选取的特征词集合wj={wj1,wj2,…,wjk},所述特征词集合中元素为所述词集合W中的元素,定义tf(wt)为待匹配文本片段上词汇wt的词频,则第j个法条文档的匹配度为:score(j)=∑t∈{j1,j2,…,jk}tf(wt)*TF-IDF(t,j)。所述特征词序列匹配模块在所述DFA识别模块识别失败后用于初步识别隐式引用的法条,其具体实现方式为:在所述DFA识别模块初步筛选过后,进行与所述DFA识别模块同样的预处理、分词和选取特征词的操作,得到待匹配文本片段和法条文本的特征词序列,得到两个序列之后可以计算序列间的相似度,若相似度高于阈值则成为候选法条,由所述深度文本匹配模型深度匹配继续判别。所述相似度的计算方法为:定义两个特征词序列分别为s1={w1,w2,…,wm},s2={t1,t2,…,tn},根据两个序列的元素匹配关系得到匹配矩阵Mm*n,ci,j代表wi和tj的匹配度,其中1≤i≤m,1≤j≤n,则:允许相同的特征词在两个序列中的位置差距在2个词之内,那么计算相同部分的相似度时同时考虑主对角线和两条次对角线上的匹配程度,选取大小为8的观察窗口,在匹配矩阵上移动,根据观察窗口内主对角线和次对角线上1的个数来判断观察的部分序列的相似程度,在匹配矩阵M上使用卷积核kernel进行卷积运算,得到序列相似匹配度p,将计算的结果使用最大池化得到两个序列之间的匹配值:进而把序列相似度匹配值与设定的阈值做比较,高于所述阈值则该法条与文本匹配度较高,可以作为候选法条;低于阈值则淘汰。所述文本分段匹配模块用于识别隐式引用的法条,对所述特征词序列匹配模块的输出结果,首先进行文本分割,所述文本分割根据DFA识别结果,对待本文档来自技高网
...

【技术保护点】
1.一种法律法条引用信息抽取系统,其特征在于:包括输入模块、基于DFA与深度文本匹配模型和输出模块,其中,所述输入模块读取外部输入的文本信息,并作为待匹配文本输入所述基于DFA与深度文本匹配模型,所述基于DFA与深度文本匹配模型运算后,对法条进行识别和提取,通过所述输出模块输出为文本;/n具体地,所述基于DFA与深度文本匹配模型首先将待匹配文本输入文本预处理模块,去除文本中包含的特殊字符和停用词,之后输入DFA识别模块根据法律法条名识别法律文本,当所述DFA识别模块根据所述法律法条名识别成功,则将信息输入历史版本区分模块进行历史版本区分,最后得到匹配结果;当所述DFA识别模块识别失败,则将信息输入特征词序列匹配模块,利用所述法律法条名,在该法律的所有法条中计算序列的相似度,根据相似度筛选出可能匹配的法条集合,由深度文本匹配模型进一步匹配,最后得到匹配结果。/n

【技术特征摘要】
1.一种法律法条引用信息抽取系统,其特征在于:包括输入模块、基于DFA与深度文本匹配模型和输出模块,其中,所述输入模块读取外部输入的文本信息,并作为待匹配文本输入所述基于DFA与深度文本匹配模型,所述基于DFA与深度文本匹配模型运算后,对法条进行识别和提取,通过所述输出模块输出为文本;
具体地,所述基于DFA与深度文本匹配模型首先将待匹配文本输入文本预处理模块,去除文本中包含的特殊字符和停用词,之后输入DFA识别模块根据法律法条名识别法律文本,当所述DFA识别模块根据所述法律法条名识别成功,则将信息输入历史版本区分模块进行历史版本区分,最后得到匹配结果;当所述DFA识别模块识别失败,则将信息输入特征词序列匹配模块,利用所述法律法条名,在该法律的所有法条中计算序列的相似度,根据相似度筛选出可能匹配的法条集合,由深度文本匹配模型进一步匹配,最后得到匹配结果。


2.如权利要求1所述的一种法律法条引用信息抽取系统,其特征在于:所述DFA识别模块的具体实现方式为:定义法律法条识别确定有限自动机DFA为M=(S,Σ,δ,S0,F),其中状态集S={S0,S1,S2},有穷字母表Σ=A∪B,终态集F={S1,S2},A为法律名称集合,B为单一法条序号数或多个法条序号数组成的区间的法条数集合,当所述文本预处理模块的输出信息输入所述DFA识别模块时,其即定义为状态集中的S0,进而将所述文本预处理模块的输出信息与所述法律名称集合中各个元素进行匹配,这一过程即为从S0到S1的状态转换,作为法律名的识别过程,当所述文本预处理模块的输出信息与某一元素匹配后,则进一步与法条数集合中元素匹配,这一过程即从S1到S2的状态转换,作为法条数的识别过程,当所述法条数的识别过程失败时,则退回所述法律名的识别过程重新进行进一步的法律名称匹配。


3.如权利要求2所述的一种法律法条引用信息抽取系统,其特征在于:所述历史版本区分模块用于区分已识别法条号的不同历史版本,具体地,通过统计词频计算TF-IDF选取出每个不同版本法条的特征词,统计特征词在待匹配文本中出现的频次,并加权计算的每个法条的匹配得分,选取法条的所述特征词的时候以法条为单位,取出该法律所有历史版本中符合的法条进行分词、统计词频,将初步筛选后符合的法条当做文档d,则满足条件的法条集合D={d1,d2,…,dm},所有文档分词后形成的词集合W={w1,w2,…,wn},1≤i≤|V|,1≤j≤m,1≤t≤|D|,则计算第i个词在第j个文档中的TF-IDF方法为:



TF-IDF(i,j)=TF(i,j)*IDF(i)
根据TF-IDF的值选取每个文档中前k个词作为该法条的特征词,假设第j个法条文档选取的特征词集合wj={wj1,wj2,…,wjk},所述特征词集合中元素为所述词集合W中的元素,定义tf(wt)为待匹配文本片段上词汇wt的词频,则第j个法条文档的匹配度为:
score...

【专利技术属性】
技术研发人员:窦志成苏展
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1