【技术实现步骤摘要】
一种目标文件知识图谱的构建方法及装置
本申请涉及计算机
,特别涉及一种目标文件知识图谱的构建方法、装置、计算设备及计算机可读存储介质。
技术介绍
目前现有的搜索引擎上提供的搜索服务进针对搜索内容一般采用关键词匹配,缺乏检索结果之间的关联性,且可供用户选择的限制条件较少,不能精准定位,无法进行较为准确的检索。
技术实现思路
有鉴于此,本申请实施例提供了一种目标文件知识图谱的构建方法、装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种目标文件知识图谱的构建方法,包括:从目标文件库中获取至少两个目标文件,形成目标文件的数据库;从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键 ...
【技术保护点】
1.一种目标文件知识图谱的构建方法,其特征在于,包括:从目标文件库中获取至少两个目标文件,形成目标文件的数据库;从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。
【技术特征摘要】
1.一种目标文件知识图谱的构建方法,其特征在于,包括:从目标文件库中获取至少两个目标文件,形成目标文件的数据库;从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。2.根据权利要求1所述的方法,其特征在于,在构建所述数据库的知识图谱之后,还包括:将所述目标文件的知识图谱以属性图的形式存储至图数据库中。3.根据权利要求1所述的方法,其特征在于,在从所述数据库中获取所述至少两个目标文件的文件标题和文件主题之后,还包括:从所述数据库中获取所述至少两个目标文件的属性信息;确定所述文件标题对应的目标文件的属性信息,所述目标文件的属性信息包括目标文件的成文日期、文件摘要、发文机关、发布日期、发文字号和文件原文链接;基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱包括:确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体;根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系;根据所述文件标题对应的目标文件的属性信息确定所述文件标题对应的实体的属性;基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组;根据所述知识图谱三元组构建所述数据库的知识图谱。4.根据权利要求1所述的方法,其特征在于,基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理包括:根据预设的领域范围确定所述文件主题的包含关系;根据所述文件主题的包含关系建立主题层级;确定所述文件标题对应的文件主题;根据所述文件标题对应的文件主题将所述文件标题添加至对应的主题层级内。5.根据权利要求1所述的方法,其特征在于,通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词包括:通过TF-IDF算法计算出所述至少两个目标文件的语料中出现的每个词语的权重;将每个词语的权重由高到低进行排序,选取前n个词语作为目标文件的文件关键词,其中,n为大于等于1的正整数。6.根据权利要求1所述的...
【专利技术属性】
技术研发人员:李长亮,侯昶宇,汪美玲,唐剑波,
申请(专利权)人:北京金山数字娱乐科技有限公司,成都金山数字娱乐科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。