基于法律数据的知识图谱构建方法及系统技术方案

技术编号:17705025 阅读:385 留言:0更新日期:2018-04-14 17:58
本发明专利技术提供了基于法律数据的知识图谱构建方法及系统,方法包括:构建法律词典步骤,提取法律短语步骤,预处理法律文本步骤,初步构建法律知识步骤,识别法律实体步骤,识别法律关系步骤,构造法律知识链步骤;系统包括法律基础词典构建模块、法律基础知识库构建模块、法律实体自动识别模块、法律关系自动识别模块、法律知识链自动生成模块。本发明专利技术实现了针对法律数据构建知识图谱,能够在多个法律案由,如离婚纠纷、合同纠纷和机动车交通事故责任纠纷等案由数据构建知识图谱,为法律行业的上层应用提供了走向智能化的数据。

【技术实现步骤摘要】
基于法律数据的知识图谱构建方法及系统
本专利技术属于数据处理
,涉及一种法律数据的知识图谱构建方法及能够实现该方法的系统。
技术介绍
人工智能正在我们人类的生活中发挥越来越重要的价值——它们正在接管我们的工作、帮助我们更高效更安全地生产、甚至改变我们生存与存在的方式。2010年以来,人工智能技术陆续在谷歌、Facebook、百度等顶尖互联网公司获得广泛应用;2016年,谷歌的战略重心从“移动先行”全面转向“人工智能先行”;根据埃森哲预测,到2035年时,人工智能可将12个发达经济体的年经济增长率提升一倍;2016年下半年,美国白宫科技政策办公室连续发布人工智能战略规划和研究报告,呼吁美国政府关注人工智能相关的科研、教育、产业发展及可能引发的就业和经济问题。2017年3月,人工智能首次写入我国的政府工作报告。人工智能技术将走出实验室,与相关产业进行更紧密衔接。而法律行业是人工智能应用的最热门领域之一。人工智能和法律的结合是法律行业发展的必然方向,重点是根据相关技术方法建立基于法律知识和案例的推理模型或知识系统等应用。法律人工智能的核心难点在于如何让计算机表示和理解法律知识,知识图谱是解决这个难题的技术,它是机器大脑中的知识库。同时,法律知识图谱是人类和机器的桥梁,描述了法律客观世界的概念、实体、事件及其之间的关系,是法律知识人机交互的基础。谷歌于2012年5月推出谷歌知识图谱,并利用其在搜索引擎中增强搜索结果,标志着大规模知识图谱在互联网语义搜索中的成功应用。在研究领域,知识图谱也取得了显著的成果,主要是根据FreeBase或ConceptNet5等已有的数据,推动了研究的发展。然而在法律行业,尚未出现基于法律知识图谱较成功的应用,原因在于真实的法律知识图谱构建的难度。主要存在的问题包括:1)数据孤岛问题,法律行业在互联网的背景下也呈现出了大数据的特点,相关的法律数据包括法律法规、司法解释、裁判文书等。而各个数据往往都各自存储,各自定义,数据之间无法联动,彼此无法兼容。2)知识缺失问题,法律行业的数据仍然是以非结构化的文本为主,缺乏具有知识结构且计算机能够理解的知识数据。3)认知鸿沟问题,法律知识图谱不等同于传统的知识图谱,普通的知识图谱的构建方法对法律数据不完全适应,法律实体和法律关系都需要法律专家的介入,对实体和关系做法律上的专业定义。4)构建体系问题,法律知识图谱没有一个统一规范的构建流程和体系,缺乏自动化的辅助工具。因此目前尚无技术能够实现法律知识图谱的构建。
技术实现思路
为解决上述问题,本专利技术在深入研究法律知识图谱相关理论和技术的基础上,提出了一种融合法律专家知识和人工智能技术的法律知识图谱构建方法及系统,以解决现有技术中构建法律知识图谱方法中,所具有的词汇歧义、关联查询、数据集成、知识推理等问题,填补了针对法律数据自动化构建知识图谱的空白。为了达到上述目的,本专利技术提供如下技术方案:基于法律数据的知识图谱构建方法,包括如下步骤:步骤1,构建法律词典首先下载以及人工标注法律种子词库,同时训练法律文本语料得到法律词向量;然后计算与词向量相似的候选法律词,计算相似度公式为:其中W1,W2为法律词汇的词向量;最后筛选有效的候选法律词;步骤2,提取法律短语通过互信息和信息熵分别提取组合词语,综合这两种方式计算的分数,使用加权平均的方式做排序筛序出短语候选组;其中,互信息计算公式为:X和Y为法律词,P(X,Y)为X和Y的联合概率,P(X)、P(Y)分别为X和Y的概率;信息熵具体计算公式如下:步骤3,预处理法律文本将步骤1、步骤2中构建的法律词典、法律短语作为分词工具的扩展词,对原始法律文本数据进行分词、词性标注、句法分析,完成法律语料文本的预处理;步骤4,初步构建法律知识定义法律知识图谱中法律实体、法律关系、三元组、概念层次图及其他相关概念,标注相关的法律数据语料;步骤5,识别法律实体对已标注的法律文本数据,进行实体特征的抽取,并将抽取的特征通过模型计算,实现法律实体自动识别,模型计算过程如下:句子沿着标签的路径,计算出概率转移矩阵和网络的分数表示为:齐总,为模型的输入层,即输入的句子表示;[h(θ)]i,t为句子的第i个标签的第t个词;[P]i,j为转移概率矩阵表示对于一对连续的时间步长从第i个状态转换到第j个状态的转变矩阵;神经网络可训练的参数记为θ;模型所有参数可表示为步骤6、识别法律关系对法律专家标注的法律文本数据,使用法律关系规则模板,从文本中学习法律文本的关系表达式,采用机器学习方法发现法律关系;步骤7、构造法律知识链基于原始法律文本,采用步骤5和步骤6识别到的法律实体和法律关系,使用基于法律实体词和法律关系的法律事理图谱推理引擎来识别法律知识链。进一步的,所述步骤6包括如下具体过程:6.1、抽取法律文本的依存句法特征,制定关系抽取模板;6.2、对法律语料进行预处理,进行语义特征、关系类别特征的抽取;6.3、将抽取得到的特征值代入到关系抽取模型进行关系抽取;6.4、将6.3抽取得到的关系做为候选关系组,并将候选关系组做类型过滤。本专利技术还提供了基于法律数据的知识图谱构建系统,包括:法律基础词典构建模块、法律基础知识库构建模块、法律实体自动识别模块、法律关系自动识别模块、法律知识链自动生成模块;所述法律基础词典构建模块用于构建和扩充法律基础词典;所述法律基础知识库构建模块用于构建法律专家知识库,制定法律专家知识模板;所述法律实体自动识别模块用于自动识别法律文本的法律实体,并向法律知识链自动生成模块推送法律实体;法律关系自动识别模块用于自动识别法律文本的法律关系,并向法律知识链自动生成模块推送推送法律关系;法律知识链自动生成模块用于通过法律实体自动识别模块和法律关系自动识别模块推送的实体和关系,生成候选知识链。进一步的,还包括法律知识图谱应用服务模块,其用于提供系统中的应用接口。与现有技术相比,本专利技术具有如下优点和有益效果:本专利技术提供的方法及系统实现了针对法律数据构建知识图谱,通过本专利技术能够在多个法律案由,如离婚纠纷、合同纠纷和机动车交通事故责任纠纷等案由数据构建知识图谱,为法律行业的上层应用提供了走向智能化的数据。本专利技术将法律专家知识和深度学习相结合,实现了对海量法律数据的自动化识别、抽取和集成,节省了大量的人力物力。同时使得构建出来的法律知识图谱更符合人对法律的理解。附图说明图1为知识图谱的构建体系示意图。图2为法律词典构建流程示意图。图3为法律实体识别模型展开结构示意图。图4为法律关系识别模型流程示意图。图5为基于法律数据的知识图谱构建系统结构示意图。具体实施方式以下将结合具体实施例对本专利技术提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本专利技术而不用于限制本专利技术的范围。本专利技术提出了法律知识图谱构建的体系,通过法律专家知识定义法律实体、法律关系和法律知识链,解决法律知识图谱在计算机中定义问题,解决认知的问题;通过多项自然语言处理技术构建了自动化的工具,提取法律文本中图谱内容。本专利技术中法律知识图谱主要由法律实体库,法律关系库和法律知识库构成,如要构建知识图谱需要实现法律实体预识别、法律关系预识别、法律知识库构造。法律实体预识别:在法律文本集中,通过机器学习算法结合自定义的本文档来自技高网
...
基于法律数据的知识图谱构建方法及系统

【技术保护点】
基于法律数据的知识图谱构建方法,其特征在于,包括如下步骤:步骤1,构建法律词典首先下载以及人工标注法律种子词库,同时训练法律文本语料得到法律词向量;然后计算与词向量相似的候选法律词,计算相似度公式为:

【技术特征摘要】
1.基于法律数据的知识图谱构建方法,其特征在于,包括如下步骤:步骤1,构建法律词典首先下载以及人工标注法律种子词库,同时训练法律文本语料得到法律词向量;然后计算与词向量相似的候选法律词,计算相似度公式为:其中W1,W2为法律词汇的词向量;最后筛选有效的候选法律词;步骤2,提取法律短语通过互信息和信息熵分别提取组合词语,综合这两种方式计算的分数,使用加权平均的方式做排序筛序出短语候选组;其中,互信息计算公式为:X和Y为两个法律词,P(X,Y)为X和Y的联合概率,P(X)、P(Y)为X和Y的概率;信息熵具体计算公式如下:步骤3,预处理法律文本将步骤1、步骤2中构建的法律词典、法律短语作为分词工具的扩展词,对原始法律文本数据进行分词、词性标注、句法分析,完成法律语料文本的预处理;步骤4,初步构建法律知识定义法律知识图谱中法律实体、法律关系、三元组、概念层次图及其他相关概念,标注相关的法律数据语料;步骤5,识别法律实体对已标注的法律文本数据,进行实体特征的抽取,并将抽取的特征通过模型计算,实现法律实体自动识别,模型计算过程如下:句子沿着标签的路径,计算出概率转移矩阵和网络的分数表示为:

【专利技术属性】
技术研发人员:杜向阳梁雁圆
申请(专利权)人:南京擎盾信息科技有限公司杜向阳梁雁圆
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1