【技术实现步骤摘要】
一种基于非参数贝叶斯的关系图数据聚类方法及系统
[0001]本专利技术属于关系图数据聚类
,尤其涉及一种基于非参数贝叶斯的关系图数据聚类方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着大数据技术门槛不断下降,各行各业迎来数字化转型。数据在数字化转型中处于核心地位,很多企业和组织拥有大量的数据,但要挖掘海量数据的信息,互联网头部企业选择尝试建立多种知识图谱,用图数据库存储各种实体与关系,并利用机器学习、深度学习等方法对关系图数据进行挖掘。这种利用知识图谱结合机器学习的数据挖掘方式,不但是企业、组织和行业与数字化、智能化结合的关键点,而且还可以给自身带来具有实际价值的业务情报。
[0004]图数据的挖掘算法种类繁多,其中图节点聚类算法可以将图中节点划分成具有相似特性和功能的子集合,是针对图数据的十分重要的机器学习算法。通过对关系图中节点聚类,可以挖掘图中的隐藏结构和隐藏特征,通常这些结构和特征无法通过人工观测和统计数据获得。如 ...
【技术保护点】
【技术特征摘要】
1.一种基于非参数贝叶斯的关系图数据聚类方法,其特征在于,包括:获取关系图数据;根据概率图模型,初始化模型参数;基于关系图数据,使用多种采样算法,迭代采样所述模型参数的样本;基于采样得到的模型参数,根据最大化似然函数的方式选择簇划分样本,得到聚类结果;其中,簇划分样本的先验概率为非参数贝叶斯先验。2.如权利要求1所述的一种基于非参数贝叶斯的关系图数据聚类方法,其特征在于,在迭代采样模型参数的样本之前对关系图数据进行预处理;所述预处理包括清除孤立的节点、冗余自回路和将关系数据转换为统一格式。3.如权利要求1所述的一种基于非参数贝叶斯的关系图数据聚类方法,其特征在于,所述迭代采样模型参数的样本的过程为:基于超参数,采用Metropolis
‑
Hasting采样算法或Gibbs采样算法采样簇划分样本;基于簇划分样本,利用辅助变量法或切片采样法,采样超参数;根据标准化互信息和迭代次数,判断是否退出采样迭代。4.如权利要求1所述的一种基于非参数贝叶斯的关系图数据聚类方法,其特征在于,所述关系图数据为同质节点关系图数据或异质节点关系图数据。5.如权利要求1所述的一种基于非参数贝叶斯的关系图数据聚类方法,其特征在于,根据似然概率,选择使对数似然最大的簇划分样本作为聚类结果。6.如权利要求1所述的一种基于非参数贝叶斯的关系图数据聚类方...
【专利技术属性】
技术研发人员:王晶,刘胜平,
申请(专利权)人:中孚安全技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。