当前位置: 首页 > 专利查询>山西大学专利>正文

一种图序列数据增强方法技术

技术编号:38427832 阅读:7 留言:0更新日期:2023-08-07 11:25
本发明专利技术属于数据增强技术领域,具体涉及一种图序列数据增强方法。将原本用户的行为的序列化数据重构为图结构数据,在重构的图数据上的节点分布以及其发射概率对原始数据进行增强,将最终所增强的数据以及原始数据作为新的数据集来进行训练。在真实的数据集中,用户足够的行为序列是比较少的,样本的随机性导致很难去精准的找到用户背后真实地兴趣。这种缺点可以结合商品图的性质较好的解决,在图中相邻节点往往属于同一个兴趣,通过对于相邻节点的不断抽样,就可以为每个用户的行为序列进行数据增强,从而更好地抽取其背后潜在兴趣。本发明专利技术提出的图数据增强方法,以解决兴趣提取模型中将某一次高随机性的行为序列提取背后兴趣所带来的问题。所带来的问题。所带来的问题。

【技术实现步骤摘要】
一种图序列数据增强方法


[0001]本专利技术属于数据增强
,具体涉及一种图序列数据增强方法。

技术介绍

[0002]如今的广告时代,为实现精细准确地投放广告,就要利用用户的历史行为序列数据以及对应的商品信息,采用统计模型、机器学习模型以及深度学习模型等方法发掘用户背后的兴趣偏好,从而预测用户点击某一商品的概率,即点击率。在点击率预测任务中,面对单一用户数据稀少的问题,如何解决并有效的提高最后的预测精度以及在一定程度上提高收敛速度成为面临的一个阻碍。
[0003]面对数据量小的问题,在其他计算机领域(如自然语言处理,计算机视觉等)的解决方式大多采用数据增强方法,类似地,如图数据增强(Graph Data Augmentation,GDA)可以通过修改原有节点、边和生成新的节点边来实现最终的数据增强效果。目前基于图结构数据的数据增强方式主要有以下四种方法进行:节点增强、连边增强、特征增强和子图数据增强。节点增强是增加或删除图中节点的图数据增强方法。在Mixed

based methods[Wang et al.,2021b]的研究中,通过已有的两个节点来创造新的节点。Feng等人在2020年提出一种新的方法——DropNode,通过特定节点的特征掩码来移除部分节点。连边增强是通过增加或剔除边来调整图结构的连接性的一种图数据增强方式。比如Klicpera等人在2019的研究GDC以及Zhao等人在2021年发表的GAug

M中,两个研究中均将图的结构进行调整并且使用调整之后的图数据进行训练和推断。特征增强是一种通过添加新的节点特征来进行图数据增强的方法,You等人在2020的研究中使用了属性掩码(Attribute Masking)随机的掩盖掉节点特征;Kong等人在2021年提出的FLAG中,通过梯度的对抗性扰动来进行图中节点特征的数据增强。子图数据增强是在图级别通过裁剪子图或创建新的子图的数据增强方式,因为采用这种数据增强方法会影响数据集中很多的节点,所以这种方法大多应用在图级别的上游任务。You等人在2021年提出的JOAO采取了子图的裁剪的方法进行最终的研究;Guo和Mao在2021年提出的Mixup通过两个子图构建了一个全新的图来进行后续计算。
[0004]无论是上述四种方式中的哪种,针对图数据增强的方法都是在做传统的任务,比如节点分类连边的预测、或者是图结构的分析预测等任务,无法实现用户点击预测、解决用户数据单一稀少等问题,因此,新的图数据增强方式成为研究方向之一。

技术实现思路

[0005]针对图数据增强的方法都是在做传统的任务,比如节点分类连边的预测、或者是图结构的分析预测等任务,无法实现用户点击预测、解决用户数据单一稀少导致模型在用户行为数据中难以抽取其背后潜在兴趣不足的问题,本专利技术提供了一种全新的图序列数据增强方法,将原本用户的行为的序列化数据重构为图结构数据,在重构的图数据上的节点分布以及其发射概率对原始数据进行增强,将最终所增强的数据以及原始数据作为新的数据集来进行训练。在真实的数据集中,用户足够的行为序列是比较少的,样本的随机性导致
很难去精准的找到用户背后真实地兴趣。这种缺点可以结合商品图的性质较好的解决,在图中相邻节点往往属于同一个兴趣,通过对于相邻节点的不断抽样,就可以为每个用户的行为序列进行数据增强,从而更好地抽取其背后潜在的兴趣。
[0006]图序列数据是序列结构数据的一种重构形式,在以序列结构为主的数据集上,将序列结构数据重构为图结构数据,进而进行图数据增强,这能够让模型学习到更加具有代表性的数据集,免除模型对于强随机性的干扰,提升绝大多数主流点击率预测模型的精度。
[0007]为了达到上述目的,本专利技术采用了下列技术方案:
[0008]一种图序列数据增强方法,包括以下步骤:
[0009]步骤1,获取用户行为序列数据集合S={S1,S2,

,S
m
}:记用户的第i次浏览或购买行为序列的第k个商品为g
ik
,在该次记录中,得到他第i次浏览或购买行为的序列g
i1
,g
i2
,...,g
ik
,将该条序列记为S
i
,S
i
={g
i1
,g
i2
,...,g
ik
},i=1,...,m;
[0010]步骤2,构建商品节点之间的有向图(若商品g
in
的浏览或或购买行为出现在商品g
im
之后,则在其之间会有一条由g
in
指向g
im
的边),统计每个商品节点g
in
,n=1,...,k的邻居节点neighbor(g
in
)以及邻居节点出现次数;
[0011]步骤3,将节点g
in
各个邻居节点出现次数归一化,称为该商品节点的发射分布,记为P(g|g
in
),i=1,...,m,n=1,...,k;
[0012]步骤4,定义超参数p
e
来决定节点g
in
是否进行发射,若发射,则依据节点g
in
的发射分布P(g|g
in
),i=1,...,m,n=1,...,k得到的概率将g
in
替换为新的节点g
inew
~P(g|g
i
);
[0013]步骤5,重复步骤3

4,遍历完S
i
中所有节点后,可以得到新增强的数据S
iA
={g
i1
,...,g
inew
,...,g
ik
},i=1,...,m;
[0014]步骤6,重复步骤3

5,遍历用户行为序列数据集合S,得到最终增强后的数据S


[0015]进一步,所述步骤2中统计每个商品节点g
in
,n=1,...,k的邻居节点neighbor(g
in
)以及邻居节点出现次数具体公式为:
[0016]neighbor(g
in
)={g
st
:number
st
,gxy:number
xy
,...},i=1,....m,n=1,...,k,
[0017]式中,g
st
和g
xy
等为该商品节点的邻居节点,s,t,x,y代表邻居节点的表示,都为整数。
[0018]进一步,所述步骤3中将各个邻居节点出现次数归一化的具体公式为:
[0019][0020]式中,number
st
为商品节点g
in
,n=1,...,k的邻居节点g...

【技术保护点】

【技术特征摘要】
1.一种图序列数据增强方法,其特征在于:包括以下步骤:步骤1,获取用户行为序列数据集合S={S1,S2,...,S
m
}:记用户的第i次浏览或购买行为序列的第k个商品为g
ik
,在该次记录中,得到他第i次浏览或购买行为的序列g
i1
,g
i2
,...,g
ik
,将该条序列记为S
i
,S
i
={g
i1
,g
i2
,...,g
ik
},i=1,...,m;步骤2,构建商品节点之间的有向图,统计每个商品节点g
in
,n=1,...,k的邻居节点neighbor(g
in
)以及邻居节点出现次数;步骤3,将节点g
in
各个邻居节点出现次数归一化,称为该商品节点的发射分布,记为P(g|g
in
),i=1,...,m,n=1,...,k;步骤4,定义超参数p
e
来决定节点g
in
是否进行发射,若发射,则依据节点g
in
的发射分布P(g|g
in
),i=1,...,m,n=1,...,k得到的概率将g
in
替换为新的节点g
inew
~P(g|g
i
);步骤5,重复步骤3

...

【专利技术属性】
技术研发人员:牛奉高刘佳璐朱承刚
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1