System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 利用MCMC的基于节点关联性的采样方法技术_技高网

利用MCMC的基于节点关联性的采样方法技术

技术编号:41218194 阅读:3 留言:0更新日期:2024-05-09 23:39
一种利用MCMC的基于节点关联性的采样方法,获取机器学习所需要的对应领域的数据集,进行图建模,以数据点作为图的节点,以数据点之间的关联关系作为关联权重并计算每个节点的关联性权重函数,以随机状态作为起始状态按设定的步数进行随机游走采样,直至得到正比于关联权重的分布的样本。本发明专利技术能够以正比于节点相关程度的概率采样出边集与节点集。

【技术实现步骤摘要】

本专利技术涉及的是一种大数据采集与处理领域的技术,具体是一种利用马尔科夫链蒙特卡罗方法(mcmc)的基于节点关联性的采样方法。


技术介绍

1、基于计算机技术的发展,许多实际问题被抽象为各种各样的图进行存储与运算,如机器学习中会将数据集转化为图来进行训练学习,而考虑到图的规模太大无法存放,且运算极慢,必须对图进行采样,从完整的图中抽出部分节点和边来进行运算。现有抽样技术要求对象必须足够具有“代表性”,否则难以获得符合表征的结果。


技术实现思路

1、本专利技术针对现有技术存在的上述不足,提出一种利用mcmc的基于节点关联性的采样方法,能够以正比于节点相关程度的概率采样出边集与节点集。

2、本专利技术是通过以下技术方案实现的:

3、本专利技术涉及一种利用mcmc的基于节点关联性的采样方法,获取机器学习所需要的对应领域的数据集,进行图建模,以数据点作为图的节点,以数据点之间的关联关系作为关联权重并计算每个节点的关联性权重函数,以随机状态作为起始状态按设定的步数进行随机游走采样,直至得到正比于关联权重的分布的样本用于下一轮机器学习。

4、所述的采样方法,具体包括:

5、1)依据采集的数据集,利用b-matching方法构造b正则图,图中节点集合为v,边构成的集合为e,半边构成的集合为ε,则马尔科夫链对应的状态空间为ω=ω0∪ω2,其中:ω0为对于e中所有的边,其对应的两个半边赋值相同的状态构成的集合,ω2为对于e中所有的边,恰好有两条边,每条边的两个半边的赋值相反的状态构成的集合;

6、2)计算b正则图中每个节点的关联情况函数,具体为:节点v存在x个相邻节点,则其函数为即x元布尔域到实数的一个映射,反映了节点对所有相邻节点的关联情况的权重之和。这一信息根据采样的需求,由节点权重和边权重共同计算给出;该关联情况函数的定义为:若选取的边比未选取的边多,则关联权重为选取的边权之乘积,否则为未选取的边权之乘积,如此构成补对称函数,即边的选取情况完全相反时,权重刚好相等。

7、3)对于整个b正则图,某种关联情况的权重即该关联情况下,所有节点对应的关联函数值的乘积,即w(σ)=∏v∈vfv(σ|e(v)),由此定义马尔科夫链的状态转移函数,即其中:d表示两个状态之间的汉明距离,w表示该状态对应的权重,n为该图半边的条数,即边数的两倍。

8、所述的马尔科夫链为是状态转移函数的懒惰模式,即其有一半的概率停留在原状态。

9、4)根据状态转移函数建立马尔科夫链,根据转移函数进行随机游走,根据误差大小运行指定步数后进行采样即得到符合要求分布的样本。

10、所述的马尔科夫链在节点的关联性函数满足windable时快速收敛(lingxiaohuang,pinyan lu,chihao zhang等在《canonical paths for mcmc:from arttoscience》),即进行t步游走后,得到的马尔科夫链与目标分布的差距为随步数的增长差距为指数小。

11、本专利技术涉及一种实现上述方法的系统,包括:初始化单元、随机探测单元、权重计算单元和状态转移单元,其中:初始化单元根据图结构信息进行初始化随机处理得到一个初始状态;权重计算单元根据当前状态信息逐节点计算对应的关联权重,计算总乘积得到当前状态的权重;随机探测单元根据当前状态信息随机从所有半边中选取两个半边反转并检查其包含的不相同的边的个数,得到合理的相邻状态;状态转移单元根据当前状态和探测到的相邻状态计算转移到相邻状态的概率,并以此概率进行状态转移或保留在原状态。

12、所述的初始化随机处理是指:以1/2的概率随机设定边的初始状态。

13、所述的合理的相邻状态是指:两个半边反转并检查其包含的不相同的边的个数至多为2。

本文档来自技高网...

【技术保护点】

1.一种利用MCMC的基于节点关联性的采样方法,其特征在于,获取机器学习所需要的对应领域的数据集,进行图建模,以数据点作为图的节点,以数据点之间的关联关系作为关联权重并计算每个节点的关联性权重函数,以随机状态作为起始状态按设定的步数进行随机游走采样,直至得到正比于关联权重的分布的样本用于下一轮机器学习。

2.根据权利要求1所述的利用MCMC的基于节点关联性的采样方法,其特征是,所述的采样方法,具体包括:

3.根据权利要求1所述的利用MCMC的基于节点关联性的采样方法,其特征是,所述的马尔科夫链在节点的关联性函数满足windable时快速收敛,即进行t步游走后,得到的马尔科夫链与目标分布的差距为随步数的增长差距为指数小。

4.一种实现权利要求1-3中任一所述利用MCMC的基于节点关联性的采样方法的系统,其特征在于,包括:初始化单元、随机探测单元、权重计算单元和状态转移单元,其中:初始化单元根据图结构信息进行初始化随机处理得到一个初始状态;权重计算单元根据当前状态信息逐节点计算对应的关联权重,计算总乘积得到当前状态的权重;随机探测单元根据当前状态信息随机从所有半边中选取两个半边反转并检查其包含的不相同的边的个数,得到合理的相邻状态;状态转移单元根据当前状态和探测到的相邻状态计算转移到相邻状态的概率,并以此概率进行状态转移或保留在原状态。

5.根据权利要求4所述的系统,其特征是,所述的初始化随机处理是指:以1/2的概率随机设定边的初始状态。

6.根据权利要求4所述的系统,其特征是,所述的合理的相邻状态是指:两个半边反转并检查其包含的不相同的边的个数至多为2。

...

【技术特征摘要】

1.一种利用mcmc的基于节点关联性的采样方法,其特征在于,获取机器学习所需要的对应领域的数据集,进行图建模,以数据点作为图的节点,以数据点之间的关联关系作为关联权重并计算每个节点的关联性权重函数,以随机状态作为起始状态按设定的步数进行随机游走采样,直至得到正比于关联权重的分布的样本用于下一轮机器学习。

2.根据权利要求1所述的利用mcmc的基于节点关联性的采样方法,其特征是,所述的采样方法,具体包括:

3.根据权利要求1所述的利用mcmc的基于节点关联性的采样方法,其特征是,所述的马尔科夫链在节点的关联性函数满足windable时快速收敛,即进行t步游走后,得到的马尔科夫链与目标分布的差距为随步数的增长差距为指数小。

4.一种实现权利要求1-3中任一所述利用mcmc的基于...

【专利技术属性】
技术研发人员:何宇乔张驰豪
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1