一种基于概念格卷积神经网络的社交网络数据挖掘方法技术

技术编号:38210830 阅读:15 留言:0更新日期:2023-07-21 17:02
一种基于概念格卷积神经网络的社交网络数据挖掘方法,包括:S100:对社交网络的数据集中的数据进行拆分,分为训练集、预测集和测试集,均为统一格式的图数据;S200:对各个数据集生成概念并构造对应的概念格;S300:计算得到的概念格中每个概念的特征值;S400:计算得到的概念格中每个概念的原始标签;S500:将所有概念格中的概念输入到图卷积神经网络模型中的图卷积层中进行图卷积操作,得到最优的图卷积神经网络模型;S600:将实际待挖掘的社交网络的数据,输入最优的图卷积神经网络模型,挖掘该社交网络中的数据。所述方法可以有效挖掘社交网络等数据网络中的信息,对网络中信息的挖掘和预测起到关键作用。挖掘和预测起到关键作用。挖掘和预测起到关键作用。

【技术实现步骤摘要】
一种基于概念格卷积神经网络的社交网络数据挖掘方法


[0001]本专利技术属于数据挖掘、互联网
,尤其涉及一种基于概念格卷积神经网络的社交网络数据挖掘方法。

技术介绍

[0002]随着过去几十年里科技的快速发展,互联网在世界范围内迅速普及,同时,各种智能终端的发展迭代也让其用户参与到了这场大变革中。用户作为互联网的直接使用者,其在互联网中的各种行为在不同程度上影响着网络的发展趋势和走向,因此在这个过程中产生的大量的社会行为数据便具有了研究价值,同时社会行为数据也为这类研究提供了条件。
[0003]现实世界中的数据网络有很多,离用户最近的当属社交网络。在社交网络中,每个用户作为个体,组成了网络中的节点,个体之间存在的关系组成了网络中的边。一般的,我们将一个社交网络建模为一个图G={V,E},其中顶点集V为网络中的所有用户,边缘集E为用户之间的关系。在原始的社交网络中,个体与个体之间存在的关系较为复杂,且容易存在一些间接的关系,因此对原始网络进行处理是很必要的。
[0004]随着近些年各类社交软件的普及,普通用户在互联网中的活动范围变得更广,活动次数也变得更加频繁。为了使这庞大的数据对人类更有价值,学术界已经进行过大量的研究,比如专注于数据结构挖掘的概念格以及对图数据信息进行聚类的图卷积。然而在之前的研究中,并没有将上述两者进行结合。也就无法解决在对社交网络等数据网络的信息挖掘和预测存在程度不足、效率不高的问题。

技术实现思路

[0005]为了解决上述技术问题,本专利技术揭示了一种基于概念格卷积神经网络的社交网络数据挖掘方法,所述方法包括如下步骤:
[0006]S100:对社交网络的数据集中的数据进行拆分,分为训练集、预测集和测试集,其中,训练集、预测集和测试集均为统一格式的图数据;
[0007]S200:对所述训练集、预测集、测试集各个数据集生成概念并构造对应的训练集概念格、预测集概念格、测试集概念格;
[0008]S300:计算得到的概念格中每个概念的特征值;
[0009]S400:计算得到的概念格中每个概念的原始标签;
[0010]S500:将训练集概念格、预测集概念格、测试集概念格中的概念输入到图卷积神经网络模型中的图卷积层中进行图卷积操作,得到最优的图卷积神经网络模型;
[0011]S600:将实际待挖掘的社交网络的数据,输入所述最优的图卷积神经网络模型,挖掘该社交网络中的数据。
[0012]通过上述技术方案,同时采用形式概念分析和卷积神经网络来挖掘数据中的信息,构建了一个概念格卷积神经网络模型。通过计算概念节点的稳定度和散度作为节点特
征值进行训练,可以更好地将形式概念分析和卷积神经网络两部分结合起来,可以更深层次的挖掘社交网络的数据信息,提高社交网络数据处理过程中的准确性和效率。
附图说明
[0013]图1是本专利技术一个实施例中所提供的一种基于概念格卷积神经网络的社交网络数据挖掘方法流程图;
[0014]图2是本专利技术一个实施例中所提供的数据网络示意图;
[0015]图3是本专利技术一个实施例中所提供的对应的邻接矩阵的示意图;
[0016]图4是本专利技术一个实施例中所提供的由社交网络的邻接矩阵生成的概念格的示意图;
[0017]图5是本专利技术一个实施例中图卷积神经网络结构示意图。
具体实施方式
[0018]为了使本领域技术人员理解本专利技术所披露的技术方案,下面将结合实施例及有关附图1至图5,对各个实施例的技术方案进行描述,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。
[0019]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本专利技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本文所描述的实施例可以与其他实施例相结合。
[0020]参见图1,在一个实施例中,为了在对社交网络等数据网络中的信息进行挖掘,同时需要保证准确率和效率,本专利技术揭示了一种基于概念格卷积神经网络的社交网络数据挖掘方法,所述方法包括如下步骤:
[0021]S100:对社交网络的数据集中的数据进行拆分,分为训练集、预测集和测试集,其中,训练集、预测集和测试集均为统一格式的图数据;
[0022]S200:对所述训练集、预测集、测试集各个数据集生成概念并构造对应的训练集概念格、预测集概念格、测试集概念格;
[0023]S300:计算得到的概念格中每个概念的特征值;
[0024]S400:计算得到的概念格中每个概念的原始标签;
[0025]S500:将训练集概念格、预测集概念格、测试集概念格中的概念输入到图卷积神经网络模型中的图卷积层中进行图卷积操作,得到最优的图卷积神经网络模型;
[0026]S600:将实际待挖掘的社交网络的数据,输入所述最优的图卷积神经网络模型,挖掘该社交网络中的数据。
[0027]就该实施例而言,首先,构造社交网络的修正邻接矩阵,从而利用形式概念分析技术来生成概念并构造概念格;其次,利用稳定度和散度方法,并计算标签值,进一步提高结构识别的准确率;最后,利用图卷积方法,进一步对数据进行处理,从而对数据进行更深层次地挖掘。总之,基于社交网络这一背景,本方法能够有效地挖掘出更多的信息。
[0028]概念格虽称作“格”,但其实际上仍为一种非欧氏空间中的图结构,因此将概念格输入到图卷积层中进行卷积操作,对节点数据进行进一步的聚类,方便了后续的数据挖掘、
分类等操作。概念格操作可以找出网络中的团结构,对数据信息进行了初步的处理;图卷积操作对概念格中的概念进行进一步的聚类。通过这两步操作,节点之间的关系更加清晰明了,节点信息也得到了充分的挖掘。
[0029]所述步骤S100中,原始的社交网络的数据集会被划分为三个数据集,分别是训练集、预测集和测试集。数据集划分的具体方式可根据原始数据集特点进行区分。对此数据集进行划分时,该实施例遵从了原数据集中的标签值的比例。该数据集为Cora数据集,其介绍为Cora数据集包括2708份科学出版物,分为七个类别之一。引用网络由5429个链接组成。数据集中的每个出版物都由0/1值词向量描述。这本词典由1433个独特的单词组成。
[0030]步骤S100中的数据指的是图数据,其中包含节点个数、边个数、节点之间的连接关系、节点特征、节点标签等数据,如论文邻域数据集Cora、PubMed等。
[0031]示例性的,步骤S500中得到的是一个图卷积神经网络GCN模型,这个模型可以用来做节点分类、社区检测等下游任务。在GCN中,节点特征值用于每一层神经网络的计算,得到下一层结点的特征值。标签的作用体现在GCN模型训练完成之后,原始标签与模型预测得到的标签会产生一组对比,以此来检验模型的效果。概念格中的节点就是概念格中的概念。
[0032]在另一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于概念格卷积神经网络的社交网络数据挖掘方法,所述方法包括如下步骤:S100:对社交网络的数据集中的数据进行拆分,分为训练集、预测集和测试集,其中,训练集、预测集和测试集均为统一格式的图数据;S200:对所述训练集、预测集、测试集各个数据集生成概念并构造对应的训练集概念格、预测集概念格、测试集概念格;S300:计算得到的概念格中每个概念的特征值;S400:计算得到的概念格中每个概念的原始标签;S500:将训练集概念格、预测集概念格、测试集概念格中的概念输入到图卷积神经网络模型中的图卷积层中进行图卷积操作,得到最优的图卷积神经网络模型;S600:将实际待挖掘的社交网络的数据,输入所述最优的图卷积神经网络模型,挖掘该社交网络中的数据。2.如权利要求1所述的方法,优选的,所述步骤S200进一步包括根据节点邻关系绘制修正的邻接矩阵,生成概念,构造概念格。3.如权利要求2所述的方法,所述修正的邻接矩阵的具体生成步骤为:将数据以图的邻接矩阵A_origin表示;对于上述邻接矩阵A_origin,将其主对角线元素全部赋值为1,得到修正的邻接矩阵,以该修正的邻接矩阵作为生成概念格的输入内容。4.如权利要求2所述的方法,所述概念的具体...

【专利技术属性】
技术研发人员:郝飞武凯李黎于汪洋林亚光
申请(专利权)人:陕西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1