【技术实现步骤摘要】
一种基于法律文件的图谱构建方法、设备及介质
[0001]本申请涉及知识抽取领域,具体涉及一种基于法律文件的图谱构建方法、设备及介质。
技术介绍
[0002]随着社会中法律体系的健全和完善,国家出台的法律文件越来越多,以文本、图片等形式出现的法律文件中各类数据急剧增加,面对如此巨大的信息海洋,如何存储、查询、分析、挖掘和利用这些法律文件中包含的信息就显得尤为关键。特别是法律文件的数量增加后,伴随着与法律文件有关的知识本体也越来越多,各类知识本体之间复杂的关系导致传统关系数据库在管理存在困难。由于办公以及组建数据库的需要,经常需要从法律文件中抽取相关的知识元,为了理清各类知识本体之间的关系,还需要构建各类知识组织及结构,用于描述知识本体之间的关系及各自的属性。因此亟需一种基于法律文件的图谱构建方法,高效率地对法律文件进行管理。
技术实现思路
[0003]为了解决上述问题,本申请提出了一种基于法律文件的图谱构建方法、设备及介质,方法包括:
[0004]确认法律文件的格式,根据所述格式将所述法律文件转化为统一 ...
【技术保护点】
【技术特征摘要】
1.一种基于法律文件的图谱构建方法,其特征在于,所述方法包括:确认法律文件的格式,根据所述格式将所述法律文件转化为统一格式的待抽取文件;解析所述待抽取文件,得到所述待抽取文件包括的元素;确定所述元素的类型,并根据所述元素的不同类型,对所述元素进行抽取,得到所述待抽取文件的知识元;根据所述知识元构建所述法律文件的知识图谱。2.根据权利要求1所述的方法,其特征在于,根据所述格式将所述法律文件转化为统一格式的待抽取文件,具体包括:若所述法律文件不是文本文档格式,则抽取所述法律文件中的文本数据,并根据所述文本数据生成所述文本文档格式的待抽取文件。3.根据权利要求2所述的方法,其特征在于,根据所述格式将所述法律文件转化为统一格式的待抽取文件,具体包括:若所述法律文件中抽取到的所述文本数据的数量低于预设阈值,则将所述法律文件标记,以使工作人员将所述法律文件人工转化为所述文本文档格式。4.根据权利要求1所述的方法,其特征在于,所述元素的类型包括:所述待抽取文件的标题、颁发时间、颁发机构、修订情况、章节题干以及章节内容中的至少一种。5.根据权利要求4所述的方法,其特征在于,确定所述元素的类型,并根据所述元素的不同类型,对所述元素进行抽取,得到所述待抽取文件的知识元,具体包括:确定所述元素的类型属于所述标题、所述颁发时间、所述颁发机构、所述修订情况,按照正则表达式对所述元素进行抽取,得到所述知识元;确定所述元素的类型属于所述章节题干及所述章节内容,按照所述法律文件的排版规则进行抽取,得到所述知识元。6.根据权利要求5所述的方法,其特征在于,得到所述知识元之后,所述方法还包括:提取所述法律文件以及所述法律文件各章节的关键字;并使用信息熵的新词发现方...
【专利技术属性】
技术研发人员:邱瀚,董志勇,于文才,杜志诚,张亚宁,郭苏鸣,
申请(专利权)人:山东旗帜信息有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。