图模型数据的处理方法、装置和终端设备制造方法及图纸

技术编号:23212815 阅读:20 留言:0更新日期:2020-01-31 21:53
本发明专利技术提供了一种图模型数据的处理方法、装置和终端设备;该方法包括:根据图模型数据的图属性,从图模型数据中提取可作为图维度和/或图度量的候选图属性信息;其中,图模型数据的图属性为:与图模型数据中的点和/或边相关联的属性;根据预设的统计规则和机器学习模型筛选候选图属性信息,得到目标图属性信息;根据目标图属性信息生成预设维度的数据立方体。通过该方式可以自动化地对图模型数据进行联机分析处理,处理过程中融入统计规则和机器学习模型,以对属性信息进行高效地筛选,该方式生成的数据立方体也有利于后续对数据立方体的筛选;该方式可以提高图模型数据的分析处理效率和准确率,使得数据处理结果更加具有价值。

Figure processing method, device and terminal equipment of model data

【技术实现步骤摘要】
图模型数据的处理方法、装置和终端设备
本专利技术涉及数据处理
,尤其是涉及一种图模型数据的处理方法、装置和终端设备。
技术介绍
与关系型数据的单一模式不同,图模型数据具有高度异构、无固定模式的属性,基于该属性,图模型数据难以应用关系型数据的OLAP(OnlineAnalyticalProcessing,联机分析处理)方法进行分析处理。相关技术中,对图模型数据的处理大多采用自行设计的程序实现,同时需要引入较多的人工处理手段,然而随着大数据时代的到来,图模型数据的规模也越来越大,常见的大规模图模型数据的可能有上十亿个点、上百亿个边。图模型数据的复杂程度较高,使得上述图模型数据的处理方式不仅处理效率低,而且准确性较低,导致数据处理结果的价值较低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种图模型数据的处理方法、装置和终端设备,以提高图模型数据的处理效率和准确率,从而提高数据处理结果的价值。第一方面,本专利技术实施例提供了一种图模型数据的处理方法,方法包括:获取待处理的图模型数据;根据图模型数据的图属性,从图模型数据中提取可作为图维度和/或图度量的候选图属性信息;其中,图模型数据的图属性为:与图模型数据中的点和/或边相关联的属性;根据预设的统计规则和机器学习模型筛选候选图属性信息,得到目标图属性信息;根据目标图属性信息生成预设维度的数据立方体。在本专利技术较佳的实施例中,上述根据图模型数据的图属性,从图模型数据中提取可作为图维度和/或图度量的候选图属性信息的步骤,包括:获取图模型数据的元信息;元信息包括图模型数据的元数据和延伸属性;其中,延伸属性通过元数据和图模型数据的实例获得;按照预设的提取标准,从元信息中提取可作为图维度和/或图度量的候选图属性信息。在本专利技术较佳的实施例中,上述获取图模型数据的元信息的步骤,包括:将图模型数据划分为多个子图;其中,多个子图组成图模型数据;统计每个子图的元数据和延伸属性;其中,元数据包括点类型、点属性、边类型和边属性;合并每个子图的元数据和延伸属性,得到图模型数据的元信息。在本专利技术较佳的实施例中,上述将图模型数据划分为多个子图的步骤,包括:根据处理器的并行度,将图模型数据划分为多个子图;其中,多个子图的数量与并行度相匹配;上述统计每个子图的元数据和延伸属性的步骤,包括:通过处理器,以并行处理的方式,统计每个子图的元数据和延伸属性。在本专利技术较佳的实施例中,上述统计每个子图的元数据和延伸属性的步骤,包括:遍历子图中的点,统计点的点类型和点属性;遍历子图中,点之间的边,统计边的边类型和边属性;根据图模型数据的实例,计算子图的延伸属性。在本专利技术较佳的实施例中,上述统计每个子图的元数据的步骤,还包括:统计每个子图的元数据中,满足指定的属性条件的点和/或边的统计信息;其中,属性条件至少包括下述之一:点属性、边属性、点类型和边类型;将统计信息作为元数据的补充信息,保存至图模型数据的元数据中。在本专利技术较佳的实施例中,上述按照预设的提取标准,从元信息中提取可作为图维度和/或图度量的候选图属性信息的步骤,包括:根据处理器的并行度,将图模型数据划分为多个子图;其中,多个子图的数量与并行度相匹配;采用并行处理的方式,按照预设的提取标准,从每个子图对应的元信息中提取候选图属性信息;合并每个子图对应的候选图属性信息,得到候选图属性信息。在本专利技术较佳的实施例中,上述根据预设的统计规则和机器学习模型筛选候选图属性信息,得到目标图属性信息的步骤,包括:通过预设的统计规则,对候选图属性信息进行第一筛选处理,得到第一筛选结果;通过预设的主动学习模型,对第一筛选结果进行第二筛选处理,得到目标图属性信息。在本专利技术较佳的实施例中,如果候选图属性信息包括图维度,预设的统计规则包括下述中的一种或多种:具备图维度的点或边的数量与总量的比例大于预设的第一比例阈值;图维度的值为非空的点或边的数量与总量的比例大于预设的第二比例阈值;图维度包含有预设数量的维度值;如果候选图属性信息包括图度量,预设的统计规则包括下述中的一种或多种:具备图度量的点或边的数量与总量的比例大于预设的第三比例阈值;图度量的值为非空的点或边的数量与总量的比例大于预设的第四比例阈值;图度量的值的类型为指定类型。在本专利技术较佳的实施例中,上述通过预设的统计规则,对候选图属性信息进行第一筛选处理,得到第一筛选结果的步骤,包括:根据处理器的并行度,将图模型数据划分为多个子图;其中,多个子图的数量与并行度相匹配;采用并行处理的方式,按照预设的统计规则,对每个子图对应的候选图属性信息进行第一筛选处理;合并每个子图对应的候选图属性信息对应的筛选结果,得到第一筛选结果。在本专利技术较佳的实施例中,上述机器学习模型,通过下述方式训练得到:基于第一筛选结果确定第一集合和第二集合;其中,第一集合中的候选图属性信息携带有预设的标准值;通过第一集合中的候选图属性信息和标准值,对预设的分类器进行第一训练处理;采用主动学习机制,通过第二集合中的候选图属性信息,对分类器进行第二训练处理,得到机器学习模型。在本专利技术较佳的实施例中,上述采用主动学习机制,通过第二集合中的候选图属性信息,对分类器进行第二训练处理的步骤,包括:从第二集合中的未被分类处理的候选图属性信息中确定待训练图属性信息;将待训练图属性信息输入至分类器中,输出待训练图属性信息的分类值;从待训练图属性信息中筛选出预设数量的、分类值满足第一预设阈值的待训练图属性信息,将筛选出的待训练图属性信息确定为待学习样本;获取待学习样本的标准值;通过待学习样本和待学习样本的标准值,对分类器进行第二训练处理;继续执行从第二集合中的未被分类处理的候选图属性信息中确定待训练图属性信息的步骤,直至满足预设的迭代终止条件,得到机器学习模型。在本专利技术较佳的实施例中,上述迭代终止条件包括下述之一:分类器的分类准确率达到预设的准确率阈值;确定出的待训练图属性信息的数量满足预设总量;迭代次数满足预设的次数阈值。在本专利技术较佳的实施例中,上述机器学习模型,通过下述方式训练得到:根据处理器的并行度,将图模型数据划分为多个子图;其中,多个子图的数量与并行度相匹配;采用并行处理的方式,根据第一筛选结果中,每个子图对应的候选图属性信息,采用上述的机器学习模型的训练方式,训练得到子模型;将每个子图对应的子模型进行组合处理,得到机器学习模型。在本专利技术较佳的实施例中,上述过预设的主动学习模型,对第一筛选结果进行第二筛选处理,得到目标图属性信息的步骤,包括:将第一筛选结果输入至预设的主动学习模型中,输出第一筛选结果中每个候选图属性信息的分类值;将分类值满足第三预设阈值的候选图属性信息,确定为目标图属性信息。在本专利技术较佳的实施例中,上述目标图属性信息包括图维度和图度量;上述根据目标图属性信息生成预设维度的数据立方体的步骤,包括:从目标图属性信息中的图维度中,确定数据立方体的分析维度;从目标图属性信息中的图度量中,确定数据立方体的分析度量;根据分析度量的数据类型,确定聚合函数;根据确定的分析维度本文档来自技高网...

【技术保护点】
1.一种图模型数据的处理方法,其特征在于,所述方法包括:/n获取待处理的图模型数据;/n根据所述图模型数据的图属性,从所述图模型数据中提取可作为图维度和/或图度量的候选图属性信息;其中,所述图模型数据的图属性为:与所述图模型数据中的点和/或边相关联的属性;/n根据预设的统计规则和机器学习模型筛选所述候选图属性信息,得到目标图属性信息;/n根据所述目标图属性信息生成预设维度的数据立方体。/n

【技术特征摘要】
1.一种图模型数据的处理方法,其特征在于,所述方法包括:
获取待处理的图模型数据;
根据所述图模型数据的图属性,从所述图模型数据中提取可作为图维度和/或图度量的候选图属性信息;其中,所述图模型数据的图属性为:与所述图模型数据中的点和/或边相关联的属性;
根据预设的统计规则和机器学习模型筛选所述候选图属性信息,得到目标图属性信息;
根据所述目标图属性信息生成预设维度的数据立方体。


2.根据权利要求1所述的方法,其特征在于,根据所述图模型数据的图属性,从所述图模型数据中提取可作为图维度和/或图度量的候选图属性信息的步骤,包括:
获取所述图模型数据的元信息;所述元信息包括所述图模型数据的元数据和延伸属性;其中,所述延伸属性通过所述元数据和所述图模型数据的实例获得;
按照预设的提取标准,从所述元信息中提取可作为图维度和/或图度量的候选图属性信息。


3.根据权利要求2所述的方法,其特征在于,获取所述图模型数据的元信息的步骤,包括:
将所述图模型数据划分为多个子图;其中,所述多个子图组成所述图模型数据;
统计每个所述子图的元数据和延伸属性;其中,所述元数据包括点类型、点属性、边类型和边属性;
合并每个所述子图的元数据和延伸属性,得到所述图模型数据的元信息。


4.根据权利要求3所述的方法,其特征在于,将所述图模型数据划分为多个子图的步骤,包括:根据处理器的并行度,将所述图模型数据划分为多个子图;其中,所述多个子图的数量与所述并行度相匹配;
所述统计每个所述子图的元数据和延伸属性的步骤,包括:通过所述处理器,以并行处理的方式,统计每个所述子图的元数据和延伸属性。


5.根据权利要求3所述的方法,其特征在于,统计每个所述子图的元数据和延伸属性的步骤,包括:
遍历所述子图中的点,统计所述点的点类型和点属性;
遍历所述子图中,所述点之间的边,统计所述边的边类型和边属性;
根据所述图模型数据的实例,计算所述子图中的延伸属性。


6.根据权利要求5所述的方法,其特征在于,统计每个所述子图的元数据的步骤,还包括:
统计每个所述子图的元数据中,满足指定的属性条件的点和/或边的统计信息;其中,所述属性条件至少包括下述之一:所述点属性、所述边属性、所述点类型和所述边类型;
将所述统计信息作为所述元数据的补充信息,保存至所述图模型数据的元数据中。


7.根据权利要求2所述的方法,其特征在于,按照预设的提取标准,从所述元信息中提取可作为图维度和/或图度量的候选图属性信息的步骤,包括:
根据处理器的并行度,将所述图模型数据划分为多个子图;其中,所述多个子图的数量与所述并行度相匹配;
采用并行处理的方式,按照预设的提取标准,从每个所述子图对应的元信息中提取候选图属性信息;
合并每个所述子图对应的候选图属性信息,得到候选图属性信息。


8.根据权利要求1所述的方法,其特征在于,根据预设的统计规则和机器学习模型筛选所述候选图属性信息,得到目标图属性信息的步骤,包括:
通过预设的统计规则,对所述候选图属性信息进行第一筛选处理,得到第一筛选结果;
通过预设的主动学习模型,对所述第一筛选结果进行第二筛选处理,得到目标图属性信息。


9.根据权利要求8所述的方法,其特征在于,如果所述候选图属性信息包括图维度,所述预设的统计规则包括下述中的一种或多种:
具备所述图维度的点或边的数量与总量的比例大于预设的第一比例阈值;
所述图维度的值为非空的点或边的数量与总量的比例大于预设的第二比例阈值;
所述图维度包含有预设数量的维度值;
如果所述候选图属性信息包括图度量,所述预设的统计规则包括下述中的一种或多种:
具备所述图度量的点或边的数量与总量的比例大于预设的第三比例阈值;
所述图度量的值为非空的点或边的数量与总量的比例大于预设的第四比例阈值;
所述图度量的值的类型为指定类型。


10.根据权利要求8所述的方法,其特征在于,通过预设的统计规则,对所述候选图属性信息进行第一筛选处理,得到第一筛选结果的步骤,包括:
根据处理器的并行度,将所述图模型数据划分为多个子图;其中,所述多个子图的数量与所述并行度相匹配;
采用并行处理的方式,按照预设的统计规则,对每个所述子图对应的候选图属性信息进行第一筛选处理;
合并每个所述子图对应的候选图属性信息对应的筛选结果,得到第一筛选结果。


11.根据权利要求8所述的方法,其特征在于,所述机器学习模型,通过下述方式训练得到:
基于所述第一筛选结果确定第一集合和第二集合;其中,所述第一集合中的候选图属性信息携带有预设的标准值;
通过所述第一集合中的候...

【专利技术属性】
技术研发人员:尚书刘柏胡志鹏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1