一种自然语言匹配法律条文的方法技术

技术编号：37573477 阅读：24 留言：0更新日期：2023-05-15 07:51

本发明专利技术公开了一种基于自然语言处理匹配法律条文的方法及系统，基于用户输入的案情相关文本的长度确定是否经过提取文本摘要处理，对于短文本无需提取摘要，对于长文本通过TextRank算法提取摘要，并经过RNN模型输出最终匹配的法律条文，实现用户基于案情检索关联法条时的精确高效匹配。法条时的精确高效匹配。法条时的精确高效匹配。

全部详细技术资料下载

【技术实现步骤摘要】
一种自然语言匹配法律条文的方法

[0001]本申请属于人工智能
，尤其涉及一种自然语言匹配法律条文的方法。

技术介绍

[0002]自然语言处理(Natural Language Processing，NLP)是以语言为对象，利用计算机技术来分析、理解和处理自然语言的一门学科，即把计算机作为语言研究的强大工具，在计算机的支持下对语言信息进行定量化的研究，并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解(NaturalLanguage Understanding，NLU)和自然语言生成(Natural LanguageGeneration，NLG)两部分。
[0003]现今所存在的一些计算机技术辅助法律的系统，大多是基于结构化法律知识以及案例数据库，通过简单的匹配查询而提供法律咨询，这种方法不具备灵活性而且工作量大。例如从法律领域的法规检索上来看，大众在生活和工作中遇到相关问题时，例如针对具体案情查询对应适用法条时，往往需要检索相关的法律法规，然而目前市场上的法规检索系统仍然是基于标题或者全文的检索方式，针对具体案情适用法条时并不能达到精确检索的效果，且针对法规检索的自然语言处理和理解系统尚无成熟的、专业的技术成果和商业应用。
[0004]因此将自然语言处理应用于法律检索系统，使其实现在海量的法律文书、法规法条、法律知识库中进行信息抽取，不仅仅是对比关键词，而是真正地让机器理解语义，构建上下文逻辑关系从而提高法律法规检索系统的效率和准确度是亟待解决的技术问题。

技术实现思路
r/>[0005]针对现有技术中的缺陷，本专利技术提供了一种自然语言匹配法律条文的方法，能够将人工智能领域的自然语言处理技术应用于法律法规检索领域，提升用户体验以及检索效率。为实现所述目的，本专利技术提供如下技术方案：
[0006]一种自然语言匹配法律条文的方法，应用于法律条文检索系统，该法律条文检索系统包括检索任务识别模块，基于TextRank算法的摘要生成模块和基于RNN(循环神经网络)的法条预测匹配模型模块，该方法包括以下步骤：
[0007](1)检索任务识别模块接收用户关于案情描述的输入，用户输入方式包括文本输入，判定文本的长度，当长度大于设定阈值时，确定为长文本，将长文本输入到基于TextRank算法的摘要生成模块；当长度小于或等于设定阈值时，确定为短文本，将短文本直接输入到基于RNN的法条预测匹配模型模块；
[0008](2)基于TextRank算法的摘要生成模块，接收检索任务识别模块输出的长文本，以单个句子为节点，以句子相似度为边，建立图模型，图模型表示为G＝(V，E)，其中，V为节点集合，E为边集合，节点V
i
的评分公式为：
[0009]其中In(V
i
)为指向节点V
i
的点集合，Out(v
j
)为节点V
j
指向的点集合；
[0010]d为阻尼系数，0＜d＜1，一般取0.85；
[0011]w
ji
为连接节点V
i
与V
j
的边的权重，即节点间的跳转概率，用对应的句子S
i
、S
j
的句子相似度进行表示，其中
[0012]通过TextRank算法计算边权重并利用评分公式进行迭代，直到收敛选取评分排名靠前的若干句子作为最终摘要的候选句，并对候选句进行冗余处理，长度过滤操作，生成最终摘要文本。并将上述摘要文本输出到基于RNN的法条预测匹配模型模块。
[0013](3)基于RNN的法条预测匹配模型模块，通过依次相连的输入层、embedding层和RNN语义编码层执行如下操作步骤：
[0014](3.1)输入层：对接收到的摘要文本或短文本进行序列化，生成案情描述的序列x＝{x1，x2，x3，...，x
n
}，n为序列最大长度，模型匹配的法条标签表示为y＝{y1，y2，y3，...y
m
}，m为法条标签数量。其中，案情描述的序列特征与法条标签的语义匹配关系由基于RNN的法条预测匹配模型模块预先训练所得，训练集来源于网络爬虫获取的裁判文书网判决案例集。
[0015](3.2)embedding层：将序列x中无意义的稀疏矩阵表示的词语转化为有距离意义且维度较小的矩阵，即输出n
×
b的二维向量，b表示embedding词嵌入的维度；
[0016](3.3)RNN语义编码层：接收embedding层输出的n
×
b的二维向量，该二维向量表示为将案情描述的每个词嵌入维度为b的词作为RNN每个单元的输入，将最后一个单元获得的输出向量作为RNN层的输出；
[0017]在t时刻RNN的输入为第t个词语x
t
，隐藏层的值为s
t
，输出表示为h
t
，
[0018]所述s
t
＝sigmoid(Ux
t
+W
e
s
t
‑1+p)，所述h
t
＝sigmoid(V
e
s
t
+c)；
[0019]其中sigmoid为激活函数，U、W
e
、V
e
为权重向量，p、c均为偏置向量；
[0020]在预测阶段使用softmax函数获得法条预测的匹配结果，输出预测匹配的法条及相关案例。
[0021]本专利技术的另一目的在于提供一种基于自然语言处理的法律条文检索系统，该基于自然语言处理的法律条文检索系统用于执行上述的方法。
[0022]本专利技术的另一目的在于提供一种计算机可读存储介质，存储一个或多个程序，所述一个或多个程序使得计算机执行上述的方法。
[0023]结合所述的所有技术方案，本专利技术与现有技术相比具有如下优点：
[0024](1)支持多种输入方式，进一步地提高了用户体验。并能根据输入文本的长度适配性选择是否进行摘要提取，如此，对于短文本输入可跳过摘要提取直接进行法条匹配，提高法条匹配的速度。
[0025](2)通过TextRank算法对长文本进行提取文本摘要处理，最大程度保留了有效文本特征，也有效缩短了长文本带来的后续处理的复杂度，强化了重点特征的占比。
[0026](3)结合了自然语言处理技术，尤其是利用了RNN结构，最大程度挖掘语义之间的关联度，进一步提高法条预测匹配的准确度和效率。
附图说明
[0027]图1是本专利技术自然语言匹配法律条文的方法的执行流程图。
[0028]图2是本专利技术基于自然语言处理的法律条文检索系统的结构示意图。
具体实施方式
[0029]下面通过实施例并结合附图1和附图2做进一步描述。显然，所描述的实施例是本专利技术的部分实施例，而不是全部实施例。基于本专利技术的实施例，本领域普通技术人员在没有付出创造性劳动本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自然语言匹配法律条文的方法，应用于法律条文检索系统，该法律条文检索系统包括检索任务识别模块，基于TextRank算法的摘要生成模块和基于RNN的法条预测匹配模型模块，其特征在于，该方法包括以下步骤：(1)检索任务识别模块接收用户关于案情描述的输入，用户输入方式包括文本输入，判定文本的长度，当长度大于设定阈值时，确定为长文本，将长文本输入到基于TextRank算法的摘要生成模块；当长度小于或等于设定阈值时，确定为短文本，将短文本直接输入到基于RNN的法条预测匹配模型模块；(2)基于TextRank算法的摘要生成模块，接收检索任务识别模块输出的长文本，以单个句子为节点，以句子相似度为边，建立图模型，图模型表示为G＝(V，E)，其中，V为节点集合，E为边集合，节点V
i
的评分公式为：其中In(V
i
)为指向节点V
i
的点集合，Out(v
j
)为节点V
j
指向的点集合；d为阻尼系数，0＜d＜1；w
ji
为连接节点V
i
与V
j
的边的权重，即节点间的跳转概率，用对应的句子S
i
、S
j
的句子相似度进行表示，其中通过计算边权重并利用评分公式进行迭代，直到收敛选取评分排名靠前的若干句子作为最终摘要的候选句，并对候选句进行冗余处理，长度过滤操作，生成最终摘要文本，并将上述摘要文本输出到基于RNN的法条预测匹配模型模块；(3)基于RNN的法条预测匹配模型模块，通过依次相连的输入层、embedding层和RNN语义编码层执行如下操作步骤：(3.1)输入层，对接收到的摘要文本或短文本进行序列化，生成案情描述的序列x＝{x1，x2，x3，...，x
n
}，n为序列最大长度，模型匹配的法条标签表示为y＝{y1，y2，y3，...y
m
}，m为法条标签数量；其中，案情描述的序列特征与法条标签的语义匹配关系由基于RNN的法条预测匹配模型模块预先训练所得，训练集来源于网络爬虫获取的裁判文书网判决案例集；(3.2)embedding层，将序列x中无意义的稀疏矩阵表示的词语转化为...

【专利技术属性】
技术研发人员：李哲，
申请(专利权)人：南阳理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人