【技术实现步骤摘要】
检测图形模式中的缺失实体
本公开一般涉及图形数据库,并且更具体地,涉及检测图形数据库的图形模式(graphschema)中的缺失实体,以及自动将所检测的缺失实体添加到图形模式中。
技术介绍
结构化数据是指具有确定长度或结构并且位于固定字段或记录中的数据。信用卡号码、社会安全号码和电话号码仅是结构化数据的一些示例。结构化数据通常以表格格式位于关系数据库中。非结构化数据是不具有预定义数据模型的信息或者不是以预定义方式组织的信息。非结构化数据通常采用文本信息的形式,但也可能包含日期和数字。与传统关系数据库中的行和列中存储的数据相比,这导致不规则性和模糊性,使得使用传统程序难以理解非结构化数据。非结构化数据的示例可以包括书籍、期刊、技术规范、培训手册、产品目录、网页、博客、社交媒体帖子、文档、元数据、记录、音频文件、视频文件、图像、图形、电子邮件、文本消息等。越来越多的非结构化数据在IT系统中变得越来越普遍,企业和组织在各种商业智能和数据分析应用中使用这些数据。数据挖掘和机器学习(例如自然语言处理和文本分析)提供了不同的技术 ...
【技术保护点】
1.一种计算机实现的用于检测图形模式中的缺失实体的方法,所述计算机实现的方法包括:/n使用聚类算法将特定域的未标记非结构化数据分成多个Voronoi单元,所述聚类算法采用与在所述图形模式中存在的与所述特定域对应的实体类型数量成比例的聚类质心来初始化;/n使用所述聚类算法的聚类初始化公式,初始化超出在所述图形模式中存在的与所述特定域对应的所述实体类型数量的一个附加聚类;/n确定所述一个附加聚类是否被填充;/n响应于确定所述一个附加聚类被填充,确定在所述图形模式中存在的所述实体类型数量中缺失实体类型;以及/n将缺失的实体类型添加到所述图形模式中。/n
【技术特征摘要】
20180710 US 16/0318111.一种计算机实现的用于检测图形模式中的缺失实体的方法,所述计算机实现的方法包括:
使用聚类算法将特定域的未标记非结构化数据分成多个Voronoi单元,所述聚类算法采用与在所述图形模式中存在的与所述特定域对应的实体类型数量成比例的聚类质心来初始化;
使用所述聚类算法的聚类初始化公式,初始化超出在所述图形模式中存在的与所述特定域对应的所述实体类型数量的一个附加聚类;
确定所述一个附加聚类是否被填充;
响应于确定所述一个附加聚类被填充,确定在所述图形模式中存在的所述实体类型数量中缺失实体类型;以及
将缺失的实体类型添加到所述图形模式中。
2.根据权利要求1所述的计算机实现的方法,还包括:
响应于确定所述一个附加聚类未被填充,确定在所述图形模式中存在所述特定域的所有实体类型。
3.根据权利要求1所述的计算机实现的方法,还包括:
针对所添加的缺失的实体类型,对在所述图形模式中存在的所述实体类型数量递增1;以及
重新执行所述聚类算法,初始化与所递增的实体类型数量成比例的聚类质心数量。
4.根据权利要求3所述的计算机实现的方法,还包括:
填充与所递增的实体类型数量对应的多个聚类;
确定所述多个聚类中的聚类是否未被填充;
响应于确定所述多个聚类被填充,确定在所述图形模式中缺失另一实体类型;以及
响应于确定所述多个聚类中的聚类未被填充,确定在所述图形模式中存在所述特定域的所有实体类型。
5.根据权利要求1所述的计算机实现的方法,还包括:
发送关于所述缺失的实体类型的通知;以及
输出具有在所述图形模式中建模的与所述特定域对应的所有实体类型的图形模式。
6.根据权利要求5所述的计算机实现的方法,其中,具有在所述图形模式中建模的与所述特定域对应的所有实体类型的所述图形模式被输出到托管符合所述图形模式的图形数据库的图形数据库服务器,以提高所述图形数据库服务器的查询性能和效率。
7.根据权利要求1所述的计算机实现的方法,还包括:
经由网络从多个数据源获取与所述特定域对应的所述未标记非结构化数据;以及
使用机器学习来分析与所述特定域对应的所述未标记非结构化数据。
8.根据权利要求1所述的计算机实现的方法,其中,所述聚类算法是k均值聚类算法。
9.根据权利要求1所述的计算机实现的方法,其中,所述聚类初始化公式定义聚类质心数量与根实体的数量加1成比例。
10.一种用于检测图形模式中的缺失实体的计算机系统,该计算机系统包括:
总线系统;
存储设备,其被连接到所述总线系统,其中,所述存储设备存储程序指令;以及
处理器,其被连接到所述总线系统,其中,所述处理器执行所述程序指令以:
使用聚类算法将特定域的未标记非结构化数据分成多个Voronoi单元,所述聚类算法采用与在所述图形模式中存在的与所述特定域对应的实体类型数量成比例的聚类质心来初始化;
使用所述聚类算法的聚类初始化公式,初始化超出在所述图形模式中存在的与所述特定域对应的所述实体类型数量的一个附加聚类;
确定所述一个附加聚类是否被填充;
响应于确定所述一个附加聚类被填充,确定在所述图形模式中存在的所述实体类型数量中缺少实体类型;以及
将缺失的实体类型添加到所述图形模式中。
11.根据权利要求10所述的计算机系统,其中所述处理器还执行所述程序指令以:
响应于确定所述一个附加聚类未被填充,确定在所述图形模式中存在所述特定域的所有实体类型。
12.根据权利要求10所述的计算机系统,其中,所述处理器还执行所述程序指令以:
针对所添加的缺失的实体类型,对在所述图形模式中存在的所述实体类型数量递增1;以及
重新执行所述聚类算法,初始化与所递增的实体类型数量成比...
【专利技术属性】
技术研发人员:C·M·特里姆,C·E·贝勒,S·佩尔文,C·A·罗德里格斯布拉沃,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。