【技术实现步骤摘要】
一种法律法条引用信息抽取系统
本专利技术涉及人工智能领域,尤其涉及一种法律法条引用信息抽取系统。
技术介绍
法律法条引用信息的抽取是研究法律相关文本的基础,与该任务相关的工作有命名实体识别与消岐、法律文本检索和深度文本匹配等。从文本中抽取引用的法律以及法条,类似于实体识别与消歧任务,在这方面已有许多相关工作。命名实体识别的研究方向经历了从早期基于规则的方法到统计的方法,再到现在基于深度学习方法的转变。在法律法条抽取任务中,由于多版本法律的存在,实体消歧的任务主要是根据上下文判断当前文本所指向的同一部法律下的具体版本。传统的消歧方法主要有基于知识的方法以及数据驱动的方法。例如利用在线词汇知识库构造基于图的词义表示法的SSI算法进行词义消歧,现在大多的实体链接系统使用监督的方法进行消歧,其中包括分类、排序、基于图等方法。再例如通过构造词袋和实体共现的特征向量,使用SVM等方法,计算余弦相似度来选取匹配的实体。排序方面则有listwise和pairwise的排序方法,相比分类方法能够取得较好的效果。在文本匹配方面,与传统方法相比,近年来深度模型有较多的研究。目前流行的深度文本匹配模型有DSSM,ARC-I,ARC-II,KNRM,Cov-KNRM,ANMM,DUET,MV-LSTM等。DSSM模型使用BOW的方法表示文本,由余弦距离来表示两个语义向量的距离,基于全连接网络,使用Wordhashing对单词进行处理,使得单词数量有显著的下降,是较为早期的语义匹配模型。相比DSSM,ARC-I通过卷积、池化以及 ...
【技术保护点】
1.一种法律法条引用信息抽取系统,其特征在于:包括输入模块、基于DFA与深度文本匹配模型和输出模块,其中,所述输入模块读取外部输入的文本信息,并作为待匹配文本输入所述基于DFA与深度文本匹配模型,所述基于DFA与深度文本匹配模型运算后,对法条进行识别和提取,通过所述输出模块输出为文本;/n具体地,所述基于DFA与深度文本匹配模型首先将待匹配文本输入文本预处理模块,去除文本中包含的特殊字符和停用词,之后输入DFA识别模块根据法律法条名识别法律文本,当所述DFA识别模块根据所述法律法条名识别成功,则将信息输入历史版本区分模块进行历史版本区分,最后得到匹配结果;当所述DFA识别模块识别失败,则将信息输入特征词序列匹配模块,利用所述法律法条名,在该法律的所有法条中计算序列的相似度,根据相似度筛选出可能匹配的法条集合,由深度文本匹配模型进一步匹配,最后得到匹配结果。/n
【技术特征摘要】
1.一种法律法条引用信息抽取系统,其特征在于:包括输入模块、基于DFA与深度文本匹配模型和输出模块,其中,所述输入模块读取外部输入的文本信息,并作为待匹配文本输入所述基于DFA与深度文本匹配模型,所述基于DFA与深度文本匹配模型运算后,对法条进行识别和提取,通过所述输出模块输出为文本;
具体地,所述基于DFA与深度文本匹配模型首先将待匹配文本输入文本预处理模块,去除文本中包含的特殊字符和停用词,之后输入DFA识别模块根据法律法条名识别法律文本,当所述DFA识别模块根据所述法律法条名识别成功,则将信息输入历史版本区分模块进行历史版本区分,最后得到匹配结果;当所述DFA识别模块识别失败,则将信息输入特征词序列匹配模块,利用所述法律法条名,在该法律的所有法条中计算序列的相似度,根据相似度筛选出可能匹配的法条集合,由深度文本匹配模型进一步匹配,最后得到匹配结果。
2.如权利要求1所述的一种法律法条引用信息抽取系统,其特征在于:所述DFA识别模块的具体实现方式为:定义法律法条识别确定有限自动机DFA为M=(S,Σ,δ,S0,F),其中状态集S={S0,S1,S2},有穷字母表Σ=A∪B,终态集F={S1,S2},A为法律名称集合,B为单一法条序号数或多个法条序号数组成的区间的法条数集合,当所述文本预处理模块的输出信息输入所述DFA识别模块时,其即定义为状态集中的S0,进而将所述文本预处理模块的输出信息与所述法律名称集合中各个元素进行匹配,这一过程即为从S0到S1的状态转换,作为法律名的识别过程,当所述文本预处理模块的输出信息与某一元素匹配后,则进一步与法条数集合中元素匹配,这一过程即从S1到S2的状态转换,作为法条数的识别过程,当所述法条数的识别过程失败时,则退回所述法律名的识别过程重新进行进一步的法律名称匹配。
3.如权利要求2所述的一种法律法条引用信息抽取系统,其特征在于:所述历史版本区分模块用于区分已识别法条号的不同历史版本,具体地,通过统计词频计算TF-IDF选取出每个不同版本法条的特征词,统计特征词在待匹配文本中出现的频次,并加权计算的每个法条的匹配得分,选取法条的所述特征词的时候以法条为单位,取出该法律所有历史版本中符合的法条进行分词、统计词频,将初步筛选后符合的法条当做文档d,则满足条件的法条集合D={d1,d2,…,dm},所有文档分词后形成的词集合W={w1,w2,…,wn},1≤i≤|V|,1≤j≤m,1≤t≤|D|,则计算第i个词在第j个文档中的TF-IDF方法为:
TF-IDF(i,j)=TF(i,j)*IDF(i)
根据TF-IDF的值选取每个文档中前k个词作为该法条的特征词,假设第j个法条文档选取的特征词集合wj={wj1,wj2,…,wjk},所述特征词集合中元素为所述词集合W中的元素,定义tf(wt)为待匹配文本片段上词汇wt的词频,则第j个法条文档的匹配度为:
score...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。