一种法律法条引用信息抽取系统技术方案

技术编号：26689794 阅读：82 留言：0更新日期：2020-12-12 02:39

本发明专利技术通过人工智能领域的方法，实现了一种法律法条引用信息抽取系统，系统架构分为输入模块、基于DFA与深度文本匹配模型和输出模块，通过输入模块读取外部输入的文本信息，并作为待匹配文本输入所述基于DFA与深度文本匹配模型，基于DFA与深度文本匹配模型运算，利用DFA模型抽取文本中引用的法律和法条，使用TF‑IDF选取特征词来区分同一部法律历史版本的法条，通过计算特征词序列之间的相似度来筛选可能匹配上的候选法条，消除了数据倾斜的问题，将候选法条输入MV‑LSTM计算得到文本与法条的语义相似度，根据语义相似度来判断文本与法条是否匹配，解决了法律法条引用信息的抽取问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种法律法条引用信息抽取系统
本专利技术涉及人工智能领域，尤其涉及一种法律法条引用信息抽取系统。
技术介绍
法律法条引用信息的抽取是研究法律相关文本的基础，与该任务相关的工作有命名实体识别与消岐、法律文本检索和深度文本匹配等。从文本中抽取引用的法律以及法条，类似于实体识别与消歧任务，在这方面已有许多相关工作。命名实体识别的研究方向经历了从早期基于规则的方法到统计的方法，再到现在基于深度学习方法的转变。在法律法条抽取任务中，由于多版本法律的存在，实体消歧的任务主要是根据上下文判断当前文本所指向的同一部法律下的具体版本。传统的消歧方法主要有基于知识的方法以及数据驱动的方法。例如利用在线词汇知识库构造基于图的词义表示法的SSI算法进行词义消歧，现在大多的实体链接系统使用监督的方法进行消歧,其中包括分类、排序、基于图等方法。再例如通过构造词袋和实体共现的特征向量，使用SVM等方法，计算余弦相似度来选取匹配的实体。排序方面则有listwise和pairwise的排序方法，相比分类方法能够取得较好的效果。在文本匹配方面，...

【技术保护点】
1.一种法律法条引用信息抽取系统，其特征在于：包括输入模块、基于DFA与深度文本匹配模型和输出模块，其中，所述输入模块读取外部输入的文本信息，并作为待匹配文本输入所述基于DFA与深度文本匹配模型，所述基于DFA与深度文本匹配模型运算后，对法条进行识别和提取，通过所述输出模块输出为文本；/n具体地，所述基于DFA与深度文本匹配模型首先将待匹配文本输入文本预处理模块，去除文本中包含的特殊字符和停用词，之后输入DFA识别模块根据法律法条名识别法律文本，当所述DFA识别模块根据所述法律法条名识别成功，则将信息输入历史版本区分模块进行历史版本区分，最后得到匹配结果；当所述DFA识别模块识别失败，则将信息...

【技术特征摘要】
1.一种法律法条引用信息抽取系统，其特征在于：包括输入模块、基于DFA与深度文本匹配模型和输出模块，其中，所述输入模块读取外部输入的文本信息，并作为待匹配文本输入所述基于DFA与深度文本匹配模型，所述基于DFA与深度文本匹配模型运算后，对法条进行识别和提取，通过所述输出模块输出为文本；
具体地，所述基于DFA与深度文本匹配模型首先将待匹配文本输入文本预处理模块，去除文本中包含的特殊字符和停用词，之后输入DFA识别模块根据法律法条名识别法律文本，当所述DFA识别模块根据所述法律法条名识别成功，则将信息输入历史版本区分模块进行历史版本区分，最后得到匹配结果；当所述DFA识别模块识别失败，则将信息输入特征词序列匹配模块，利用所述法律法条名，在该法律的所有法条中计算序列的相似度，根据相似度筛选出可能匹配的法条集合，由深度文本匹配模型进一步匹配，最后得到匹配结果。

2.如权利要求1所述的一种法律法条引用信息抽取系统，其特征在于：所述DFA识别模块的具体实现方式为：定义法律法条识别确定有限自动机DFA为M＝(S，Σ，δ，S0，F),其中状态集S＝{S0，S1,S2},有穷字母表Σ＝A∪B,终态集F＝{S1,S2}，A为法律名称集合，B为单一法条序号数或多个法条序号数组成的区间的法条数集合，当所述文本预处理模块的输出信息输入所述DFA识别模块时，其即定义为状态集中的S0，进而将所述文本预处理模块的输出信息与所述法律名称集合中各个元素进行匹配，这一过程即为从S0到S1的状态转换，作为法律名的识别过程，当所述文本预处理模块的输出信息与某一元素匹配后，则进一步与法条数集合中元素匹配，这一过程即从S1到S2的状态转换，作为法条数的识别过程，当所述法条数的识别过程失败时，则退回所述法律名的识别过程重新进行进一步的法律名称匹配。

3.如权利要求2所述的一种法律法条引用信息抽取系统，其特征在于：所述历史版本区分模块用于区分已识别法条号的不同历史版本，具体地，通过统计词频计算TF-IDF选取出每个不同版本法条的特征词，统计特征词在待匹配文本中出现的频次，并加权计算的每个法条的匹配得分，选取法条的所述特征词的时候以法条为单位，取出该法律所有历史版本中符合的法条进行分词、统计词频，将初步筛选后符合的法条当做文档d,则满足条件的法条集合D＝{d1,d2,…，dm},所有文档分词后形成的词集合W＝{w1，w2，…，wn},1≤i≤|V|,1≤j≤m,1≤t≤|D|，则计算第i个词在第j个文档中的TF-IDF方法为：

TF-IDF(i，j)＝TF(i，j)*IDF(i)
根据TF-IDF的值选取每个文档中前k个词作为该法条的特征词，假设第j个法条文档选取的特征词集合wj＝{wj1，wj2，…，wjk}，所述特征词集合中元素为所述词集合W中的元素，定义tf(wt)为待匹配文本片段上词汇wt的词频，则第j个法条文档的匹配度为：
score...

【专利技术属性】
技术研发人员：窦志成，苏展，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人