【技术实现步骤摘要】
一种用于结构化表格数据知识图谱的构建方法
本专利技术涉及知识图谱
,尤其是涉及一种用于结构化表格数据知识图谱的构建方法。
技术介绍
随着人工智能领域的不断发展和渗透,越来越多的企业使用人工智能相关技术深化应用场景,企业数据的数量和种类也随之增加,传统的关系型数据库可以达到海量数据存储的目的,但无法满足企业日益增长的个性化和智能化需求,于是探索新的数据表示形式,探索数据之间的关系,挖掘数据深层次的价值成了企业未来的发展方向。知识图谱是近年来人工智能领域新的知识体系组织形式,其以图的方式展现知识、以三元组的结构存储知识,相比于传统的表格存储数据,知识图谱具备更广阔、更先进的应用前景,而如何将传统关系型数据库里的表格数据便捷、准确地转换成图数据库里的知识、构建知识图谱,则是企业数据管理和分析人员亟需解决的问题。传统构建知识图谱的方式是人工手动构建,即人为定义本体、定义构建知识图谱所需的实体、实体属性及实体关系,并按照本体从具体数据中提取相关知识,自顶向下构建知识图谱,这是领域知识图谱构建的一般方法,由于结构化 ...
【技术保护点】
1.一种用于结构化表格数据知识图谱的构建方法,其特征在于,包括以下步骤:/nS1、获取源数据,其中,源数据包括表格结构、表格数据和表格外键约束信息;/nS2、对源数据进行预处理,以生成得到单词林;/nS3、根据实体核搜索算法,从单词林中筛选得到实体核;/nS4、基于实体核,根据主表筛选算法,依次确定实体对应的实体主表、实体关系表和无效表,其中,实体具体为与实体核相组合的单词;/nS5、结合规则组合以及最大连续字符匹配的方式,以确定实体属性;/nS6、根据实体属性、实体主表、实体关系表以及表格外键约束信息,确定实体关系,以完成本体的构建;/nS7、按照本体,将表格数据导入图数 ...
【技术特征摘要】
1.一种用于结构化表格数据知识图谱的构建方法,其特征在于,包括以下步骤:
S1、获取源数据,其中,源数据包括表格结构、表格数据和表格外键约束信息;
S2、对源数据进行预处理,以生成得到单词林;
S3、根据实体核搜索算法,从单词林中筛选得到实体核;
S4、基于实体核,根据主表筛选算法,依次确定实体对应的实体主表、实体关系表和无效表,其中,实体具体为与实体核相组合的单词;
S5、结合规则组合以及最大连续字符匹配的方式,以确定实体属性;
S6、根据实体属性、实体主表、实体关系表以及表格外键约束信息,确定实体关系,以完成本体的构建;
S7、按照本体,将表格数据导入图数据库中,得到对应的知识图谱。
2.根据权利要求1所述的一种用于结构化表格数据知识图谱的构建方法,其特征在于,所述步骤S1具体是从传统关系型数据库中获取源数据,所述源数据的表格结构包括表名和列名。
3.根据权利要求2所述的一种用于结构化表格数据知识图谱的构建方法,其特征在于,所述步骤S2具体是采用分词工具或分词规则将所有表名、列名拆分成单词碎片,若表名或列名为英文,则继续对单词碎片进行标准化处理,所述标准化处理包括去除时态、单复数以及大小写干扰,以得到标准化的小写的单词集合。
4.根据权利要求2所述的一种用于结构化表格数据知识图谱的构建方法,其特征在于,所述步骤S3中实体核搜索算法具体为:
S31、获取单词对应的实体核搜索第一要素:判断单词在所有表名或列名中是否出现,若单词在某表名或列名中出现,则标记为1,否则标记为0,将所有标记1累加后除以所有表格总数,即得到该单词对应的实体核搜索第一要素;
S32、获取单词对应的实体搜索第二要素:当单词作为其他单词的前缀或后缀时,统计其他单词的种类数目,即为该单词对应的实体核搜索第二要素;
S33、将单词对应的实体核搜索第一要素和第二要素进行求积运算,得到单词对应的实体核计算值;
S34、将所有单词对应的实体核计算值按照从大到小的顺序进行排序,并排除对应于日期的单词,排序第一的单词即为实体核。
5.根据权利要求2所述的一种用于结构化表格数据知识图谱的构建方法,其特征在于,所述步骤S4中主表筛选算法具体为:
S41、获取表格对应的主表筛选第一要素:判断表名中是否存在该实体,若存在,则标记为1,否则标记为0;
S42、获取表格对应的主表筛选第二要素:判断表名中是否存在其他实体,若存在,则标记为0,否则标记为1;
S43、获取表格对应的主表筛选第三要素:判断表格的列名中是否存在实体核和实体的组合,若存在,则标记为1,否则标记为0;
S44、获取表格对应的主表筛选第四要素:统计表格所有列名中出现实体的次数,即为该表格对应的主表筛选第四要素;
S45、获取表格对应的主表筛选第五要素:判断表格的列名中是否存在实体核和实体的组合,若存在,则计算该表格的表名长度,即为该表格对应的主表筛选第五要素,...
【专利技术属性】
技术研发人员:顾磊,陈骁,
申请(专利权)人:上海爱数信息技术股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。