【技术实现步骤摘要】
图模型数据的处理方法、装置和终端设备
本专利技术涉及数据处理
,尤其是涉及一种图模型数据的处理方法、装置和终端设备。
技术介绍
与关系型数据的单一模式不同,图模型数据具有高度异构、无固定模式的属性,基于该属性,图模型数据难以应用关系型数据的OLAP(OnlineAnalyticalProcessing,联机分析处理)方法进行分析处理。相关技术中,对图模型数据的处理大多采用自行设计的程序实现,同时需要引入较多的人工处理手段,然而随着大数据时代的到来,图模型数据的规模也越来越大,常见的大规模图模型数据的可能有上十亿个点、上百亿个边。图模型数据的复杂程度较高,使得上述图模型数据的处理方式不仅处理效率低,而且准确性较低,导致数据处理结果的价值较低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种图模型数据的处理方法、装置和终端设备,以提高图模型数据的处理效率和准确率,从而提高数据处理结果的价值。第一方面,本专利技术实施例提供了一种图模型数据的处理方法,方法包括:获取待处理的图模型数据;根据图模型数据的图属性,从图模型数据中提取可作为图维度和/或图度量的候选图属性信息;其中,图模型数据的图属性为:与图模型数据中的点和/或边相关联的属性;根据预设的统计规则和机器学习模型筛选候选图属性信息,得到目标图属性信息;根据目标图属性信息生成预设维度的数据立方体。在本专利技术较佳的实施例中,上述根据图模型数据的图属性,从图模型数据中提取可作为图维度和/或图度量的候选图属性信息的步骤,包括:获取 ...
【技术保护点】
1.一种图模型数据的处理方法,其特征在于,所述方法包括:/n获取待处理的图模型数据;/n根据所述图模型数据的图属性,从所述图模型数据中提取可作为图维度和/或图度量的候选图属性信息;其中,所述图模型数据的图属性为:与所述图模型数据中的点和/或边相关联的属性;/n根据预设的统计规则和机器学习模型筛选所述候选图属性信息,得到目标图属性信息;/n根据所述目标图属性信息生成预设维度的数据立方体。/n
【技术特征摘要】
1.一种图模型数据的处理方法,其特征在于,所述方法包括:
获取待处理的图模型数据;
根据所述图模型数据的图属性,从所述图模型数据中提取可作为图维度和/或图度量的候选图属性信息;其中,所述图模型数据的图属性为:与所述图模型数据中的点和/或边相关联的属性;
根据预设的统计规则和机器学习模型筛选所述候选图属性信息,得到目标图属性信息;
根据所述目标图属性信息生成预设维度的数据立方体。
2.根据权利要求1所述的方法,其特征在于,根据所述图模型数据的图属性,从所述图模型数据中提取可作为图维度和/或图度量的候选图属性信息的步骤,包括:
获取所述图模型数据的元信息;所述元信息包括所述图模型数据的元数据和延伸属性;其中,所述延伸属性通过所述元数据和所述图模型数据的实例获得;
按照预设的提取标准,从所述元信息中提取可作为图维度和/或图度量的候选图属性信息。
3.根据权利要求2所述的方法,其特征在于,获取所述图模型数据的元信息的步骤,包括:
将所述图模型数据划分为多个子图;其中,所述多个子图组成所述图模型数据;
统计每个所述子图的元数据和延伸属性;其中,所述元数据包括点类型、点属性、边类型和边属性;
合并每个所述子图的元数据和延伸属性,得到所述图模型数据的元信息。
4.根据权利要求3所述的方法,其特征在于,将所述图模型数据划分为多个子图的步骤,包括:根据处理器的并行度,将所述图模型数据划分为多个子图;其中,所述多个子图的数量与所述并行度相匹配;
所述统计每个所述子图的元数据和延伸属性的步骤,包括:通过所述处理器,以并行处理的方式,统计每个所述子图的元数据和延伸属性。
5.根据权利要求3所述的方法,其特征在于,统计每个所述子图的元数据和延伸属性的步骤,包括:
遍历所述子图中的点,统计所述点的点类型和点属性;
遍历所述子图中,所述点之间的边,统计所述边的边类型和边属性;
根据所述图模型数据的实例,计算所述子图中的延伸属性。
6.根据权利要求5所述的方法,其特征在于,统计每个所述子图的元数据的步骤,还包括:
统计每个所述子图的元数据中,满足指定的属性条件的点和/或边的统计信息;其中,所述属性条件至少包括下述之一:所述点属性、所述边属性、所述点类型和所述边类型;
将所述统计信息作为所述元数据的补充信息,保存至所述图模型数据的元数据中。
7.根据权利要求2所述的方法,其特征在于,按照预设的提取标准,从所述元信息中提取可作为图维度和/或图度量的候选图属性信息的步骤,包括:
根据处理器的并行度,将所述图模型数据划分为多个子图;其中,所述多个子图的数量与所述并行度相匹配;
采用并行处理的方式,按照预设的提取标准,从每个所述子图对应的元信息中提取候选图属性信息;
合并每个所述子图对应的候选图属性信息,得到候选图属性信息。
8.根据权利要求1所述的方法,其特征在于,根据预设的统计规则和机器学习模型筛选所述候选图属性信息,得到目标图属性信息的步骤,包括:
通过预设的统计规则,对所述候选图属性信息进行第一筛选处理,得到第一筛选结果;
通过预设的主动学习模型,对所述第一筛选结果进行第二筛选处理,得到目标图属性信息。
9.根据权利要求8所述的方法,其特征在于,如果所述候选图属性信息包括图维度,所述预设的统计规则包括下述中的一种或多种:
具备所述图维度的点或边的数量与总量的比例大于预设的第一比例阈值;
所述图维度的值为非空的点或边的数量与总量的比例大于预设的第二比例阈值;
所述图维度包含有预设数量的维度值;
如果所述候选图属性信息包括图度量,所述预设的统计规则包括下述中的一种或多种:
具备所述图度量的点或边的数量与总量的比例大于预设的第三比例阈值;
所述图度量的值为非空的点或边的数量与总量的比例大于预设的第四比例阈值;
所述图度量的值的类型为指定类型。
10.根据权利要求8所述的方法,其特征在于,通过预设的统计规则,对所述候选图属性信息进行第一筛选处理,得到第一筛选结果的步骤,包括:
根据处理器的并行度,将所述图模型数据划分为多个子图;其中,所述多个子图的数量与所述并行度相匹配;
采用并行处理的方式,按照预设的统计规则,对每个所述子图对应的候选图属性信息进行第一筛选处理;
合并每个所述子图对应的候选图属性信息对应的筛选结果,得到第一筛选结果。
11.根据权利要求8所述的方法,其特征在于,所述机器学习模型,通过下述方式训练得到:
基于所述第一筛选结果确定第一集合和第二集合;其中,所述第一集合中的候选图属性信息携带有预设的标准值;
通过所述第一集合中的候...
【专利技术属性】
技术研发人员:尚书,刘柏,胡志鹏,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。