基于属性图数据的预测规则生成方法技术

技术编号：39753557 阅读：12 留言：0更新日期：2023-12-17 23:52

本申请适用于图数据分析技术领域，尤其涉及一种基于属性图数据的预测规则生成方法

全部详细技术资料下载

【技术实现步骤摘要】
基于属性图数据的预测规则生成方法、装置、设备及介质

[0001]本申请适用于图数据分析
，尤其涉及一种基于属性图数据的预测规则生成方法
、
装置
、
设备及介质
。

技术介绍

[0002]推荐系统已经被熟练的应用在电商
、
新闻资讯
、
音乐
、
视频等各类应用程序，现有的推荐系统算法有协同过滤
(Collaborative Filtering
，
CF)
算法
、
基于内容的推荐算法
(Content
‑
Based Recommendations
，
CB)
和混合模型等
。
图预测规则可以用于提升推荐系统模型的准确率，减少假正样本
(False Positives
，
FPs)
和假负样本
(False Negatives
，
FNs)
的数量
。
[0003]目前，很多的规则是由领域专家根据经验人工制定的，不仅成本非常高昂，而且准确率低
、
一致性差
。
当涉及到从图数据中发现规则时，大多数现有工作都集中在发现表达能力有限的规则上，只能发现具有图模式的规则，而不包含逻辑条件
。
而针对从图数据中发现结合图模式和逻辑条件的图预测规则而言，可以使用的
level
‑r/>wise
发现算法，通过将发现过程分解为垂直拓展以及水平拓展，垂直拓展部分通过从边数为
n
‑1的图模式增加一条边的方式得到边数为
n
的图模式，水平拓展部分对于每个图模式维护了一颗谓词生成树，通过在生成树上不断添加谓词约束来找到满足条件的图预测规则
。
在此基础上采用应用驱动的图过滤策略来选择相关谓词，并使用采样方法从图数据中生成一小部分数据，在准确性和效率之间取得平衡，然后使用
level
‑
wise
发现算法从样本中生成规则
。
但是上述算法的发现效率较低，无法在合理时间内发现出规模较大的图预测规则，且需要在资源描述框架
(Resource Description Framework
，
RDF)
图中发现规则，针对常用地属性图而言无法使用，而将属性图转换为
RDF
图会使得其节点属性产生大量的
RDF
三元组，使得在对该
RDF
图进行规则发现时会表现出较差的可扩展性，进而无法有效性地发现用于提高机器学习的推荐模型准确率的规则
。
因此，如何高效地发现高质量的预测规则，以用于提升已有的推荐模型的准确率成为亟待解决的问题
。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种基于属性图数据的预测规则生成方法
、
装置
、
设备及介质，以解决如何高效地发现高质量的预测规则，以用于提升已有的推荐模型的准确率的问题
。
[0005]第一方面，本申请实施例提供一种基于属性图数据的预测规则生成方法，所述预测规则生成方法包括：
[0006]从一属性图数据中提取得到一双星形数据，所述双星形数据包括第一类节点和连接所述第一类节点的至少一条第一节点路径，以及第二类节点和连接所述第二类节点的至少一条第二节点路径，所述第一类节点和所述第二类节点为不同节点类别，且任两个节点路径上的节点不相交；
[0007]基于预设的推荐模型，构建推荐模型谓词，基于预设的谓词公式，对每条第一节点路径中第一属性节点和每条第二节点路径中第二属性节点进行谓词构造，得到至少一个候选逻辑谓词，所述第一属性节点与所述第二属性节点为相同属性；
[0008]根据所述至少一个候选逻辑谓词，构建至少一个候选谓词组合，针对任一候选谓词组合，结合所述推荐模型谓词，计算所述候选谓词组合在所述属性图数据中的支持度和置信度；
[0009]确定所述支持度和所述置信度均满足预设条件的候选谓词组合为目标谓词组合，将每个目标谓词组合分别与所述推荐模型谓词融合，得到融合结果为优化所述推荐模型的预测规则
。
[0010]第二方面，本申请实施例提供一种基于属性图数据的预测规则生成装置，所述预测规则生成装置包括：
[0011]模式数据生成模块，用于从一属性图数据中提取得到一双星形数据，所述双星形数据包括第一类节点和连接所述第一类节点的至少一条第一节点路径，以及第二类节点和连接所述第二类节点的至少一条第二节点路径，所述第一类节点和所述第二类节点为不同节点类别，且任两个节点路径上的节点不相交；
[0012]谓词构建模块，用于基于预设的推荐模型，构建推荐模型谓词，基于预设的谓词公式，对每条第一节点路径中第一属性数据和每条第二节点路径中第二属性数据进行谓词构造，得到至少一个候选逻辑谓词，所述第一属性数据与所述第二属性数据为相同属性；
[0013]指标计算模块，用于根据所述至少一个候选逻辑谓词，构建至少一个候选谓词组合，针对任一候选谓词组合，结合所述推荐模型谓词，计算所述候选谓词组合在所述属性图数据中的支持度和置信度；
[0014]预测规则确定模块，用于确定所述支持度和所述置信度均满足预设条件的候选谓词组合为目标谓词组合，将每个目标谓词组合分别与所述推荐模型谓词融合，得到融合结果为优化所述推荐模型的预测规则
。
[0015]第三方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器
、
存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的预测规则生成方法
。
[0016]第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的预测规则生成方法
。
[0017]本申请实施例与现有技术相比存在的有益效果是：本申请从一属性图数据中提取得到一双星形数据，基于预设的推荐模型，构建推荐模型谓词，基于预设的谓词公式，对双星形数据中每条第一节点路径中第一属性节点和每条第二节点路径中第二属性节点进行谓词构造，得到至少一个候选逻辑谓词，根据至少一个候选逻辑谓词，构建至少一个候选谓词组合，针对任一候选谓词组合，结合推荐模型谓词，计算候选谓词组合在属性图数据中的支持度和置信度，确定支持度和置信度均满足预设条件的候选谓词组合为目标谓词组合，将每个目标谓词组合分别与推荐模型谓词融合，得到融合结果为优化推荐模型的预测规则，通过分析提取的双星形数据来形成表征数据之间属性关系的逻辑谓词，能够有效地发现属性间关联关系，再结合支持度和置信度对逻辑谓词进行组合和筛选，以得到优化的谓
词本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于属性图数据的预测规则生成方法，其特征在于，所述预测规则生成方法包括：从一属性图数据中提取得到一双星形数据，所述双星形数据包括第一类节点和连接所述第一类节点的至少一条第一节点路径，以及第二类节点和连接所述第二类节点的至少一条第二节点路径，所述第一类节点和所述第二类节点为不同节点类别，且任两个节点路径上的节点不相交；基于预设的推荐模型，构建推荐模型谓词，基于预设的谓词公式，对每条第一节点路径中第一属性节点和每条第二节点路径中第二属性节点进行谓词构造，得到至少一个候选逻辑谓词，所述第一属性节点与所述第二属性节点为相同属性；根据所述至少一个候选逻辑谓词，构建至少一个候选谓词组合，针对任一候选谓词组合，结合所述推荐模型谓词，计算所述候选谓词组合在所述属性图数据中的支持度和置信度；确定所述支持度和所述置信度均满足预设条件的候选谓词组合为目标谓词组合，将每个目标谓词组合分别与所述推荐模型谓词融合，得到融合结果为优化所述推荐模型的预测规则
。2.
根据权利要求1所述的预测规则生成方法，其特征在于，所述根据所述至少一个候选逻辑谓词，构建至少一个候选谓词组合，针对任一候选谓词组合，结合所述推荐模型谓词，计算所述候选谓词组合在所述属性图数据中的支持度和置信度，包括：根据所述属性图数据中满足每个候选逻辑谓词的第一匹配结果，计算得到对应候选逻辑谓词的基尼指数，将基尼指数最小的候选逻辑谓词作为初始的谓词组合；以所述初始的谓词组合为一候选谓词组合，根据所述候选谓词组合和所述推荐模型谓词，计算所述候选谓词组合在所述属性图数据中的支持度和置信度
。3.
根据权利要求2所述的预测规则生成方法，其特征在于，在所述根据所述候选谓词组合和所述推荐模型谓词，计算所述候选谓词组合在所述属性图数据中的支持度和置信度之后，还包括：检测所述支持度和所述置信度是否均满足所述预设条件，若检测到所述支持度或者所述置信度不满足所述预设条件，则在所述初始的谓词组合中分别加入一个其它逻辑谓词，得到更新的谓词组合，所述其它逻辑谓词为所述至少一个候选逻辑谓词中未出现在所述初始的谓词组合内的任一逻辑谓词；计算每个更新的谓词组合的基尼指数，从所有更新的谓词组合中选取基尼指数最小的更新的谓词组合，将所述更新的谓词组合作为所述初始的谓词组合；返回执行以所述初始的谓词组合为一候选谓词组合，根据所述候选谓词组合和所述推荐模型谓词，计算所述候选谓词组合在所述属性图数据中的支持度和置信度的步骤，直至检测到所述支持度和所述置信度均满足所述预设条件或者迭代达到预设次数
。4.
根据权利要求3所述的预测规则生成方法，其特征在于，所述计算每个更新的谓词组合的基尼指数，包括：获取所述属性图数据中满足所述初始的谓词组合的第二匹配结果；针对任一更新的谓词组合，从所述第二匹配结果中确定满足所述更新的谓词组合的第一数据，以及不满足所述更新的谓词组合的第二数据；
根据所述第二匹配结果
、
所述第一数据和所述第二数据，计算得到对应所述更新的谓词组合的基尼指数
。5.
根据权利要求1至4任一项所述的预测规则生成方法，其特征在于，所述计算所述候选谓词组合在所述属性图数据中的支持度和置信...

【专利技术属性】
技术研发人员：樊文飞，樊李行，陆平，田超，尹强，
申请(专利权)人：深圳计算科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人