一种基于法律文件的图谱构建方法、设备及介质技术

技术编号:31082337 阅读:27 留言:0更新日期:2021-12-01 12:29
本申请公开了一种基于法律文件的图谱构建方法、设备及介质,方法包括:确认法律文件的格式,根据格式将法律文件转化为统一格式的待抽取文件;解析待抽取文件,得到待抽取文件包括的元素;确定元素的类型,并根据元素的不同类型,对元素进行抽取,得到待抽取文件的知识元;根据知识元构建法律文件的知识图谱。通过本申请提出的方法通过将不同类型的法律文件转换为统一格式的待抽取文件,从而增加了对于待抽取文件的处理速度,通过待抽取文件内不同的元素类型,确定不同的抽取方式,从而使得知识元更加准确。还能够帮助理清各类知识本体之间的关系,构建各类知识组织及结构,描述知识本体之间的关系及各自的属性。本体之间的关系及各自的属性。本体之间的关系及各自的属性。

【技术实现步骤摘要】
一种基于法律文件的图谱构建方法、设备及介质


[0001]本申请涉及知识抽取领域,具体涉及一种基于法律文件的图谱构建方法、设备及介质。

技术介绍

[0002]随着社会中法律体系的健全和完善,国家出台的法律文件越来越多,以文本、图片等形式出现的法律文件中各类数据急剧增加,面对如此巨大的信息海洋,如何存储、查询、分析、挖掘和利用这些法律文件中包含的信息就显得尤为关键。特别是法律文件的数量增加后,伴随着与法律文件有关的知识本体也越来越多,各类知识本体之间复杂的关系导致传统关系数据库在管理存在困难。由于办公以及组建数据库的需要,经常需要从法律文件中抽取相关的知识元,为了理清各类知识本体之间的关系,还需要构建各类知识组织及结构,用于描述知识本体之间的关系及各自的属性。因此亟需一种基于法律文件的图谱构建方法,高效率地对法律文件进行管理。

技术实现思路

[0003]为了解决上述问题,本申请提出了一种基于法律文件的图谱构建方法、设备及介质,方法包括:
[0004]确认法律文件的格式,根据所述格式将所述法律文件转化为统一格式的待抽取文件;解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于法律文件的图谱构建方法,其特征在于,所述方法包括:确认法律文件的格式,根据所述格式将所述法律文件转化为统一格式的待抽取文件;解析所述待抽取文件,得到所述待抽取文件包括的元素;确定所述元素的类型,并根据所述元素的不同类型,对所述元素进行抽取,得到所述待抽取文件的知识元;根据所述知识元构建所述法律文件的知识图谱。2.根据权利要求1所述的方法,其特征在于,根据所述格式将所述法律文件转化为统一格式的待抽取文件,具体包括:若所述法律文件不是文本文档格式,则抽取所述法律文件中的文本数据,并根据所述文本数据生成所述文本文档格式的待抽取文件。3.根据权利要求2所述的方法,其特征在于,根据所述格式将所述法律文件转化为统一格式的待抽取文件,具体包括:若所述法律文件中抽取到的所述文本数据的数量低于预设阈值,则将所述法律文件标记,以使工作人员将所述法律文件人工转化为所述文本文档格式。4.根据权利要求1所述的方法,其特征在于,所述元素的类型包括:所述待抽取文件的标题、颁发时间、颁发机构、修订情况、章节题干以及章节内容中的至少一种。5.根据权利要求4所述的方法,其特征在于,确定所述元素的类型,并根据所述元素的不同类型,对所述元素进行抽取,得到所述待抽取文件的知识元,具体包括:确定所述元素的类型属于所述标题、所述颁发时间、所述颁发机构、所述修订情况,按照正则表达式对所述元素进行抽取,得到所述知识元;确定所述元素的类型属于所述章节题干及所述章节内容,按照所述法律文件的排版规则进行抽取,得到所述知识元。6.根据权利要求5所述的方法,其特征在于,得到所述知识元之后,所述方法还包括:提取所述法律文件以及所述法律文件各章节的关键字;并使用信息熵的新词发现方...

【专利技术属性】
技术研发人员:邱瀚董志勇于文才杜志诚张亚宁郭苏鸣
申请(专利权)人:山东旗帜信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1