一种面向军事领域的社交网络特定目标账号挖掘方法技术

技术编号:37454620 阅读:15 留言:0更新日期:2023-05-06 09:26
本发明专利技术提供了一种面向军事领域的社交网络特定目标账号挖掘方法,包括以下步骤:选定种子账号加入到种子账号池;对种子账号进行数据采集;利用自然语言处理技术与图像识别技术,对采集的种子账号数据进行处理;利用种子账号采集的数据和经处理后的数据,对种子账号进行打分分档处理;对于分值较高的账号,重新作为种子账号加入到种子账号池,重复;当采集一定的层级或者账号数据集,账号发现部分停止;构建社交网络知识图谱;采用社交网络知识图谱进行特定目标账号的挖掘。该方法通过对种子账号打分评估的机制,发现优质账号,并有效的控制采集量,聚焦于采集目标关联度高的账号,节省采集资源。节省采集资源。

【技术实现步骤摘要】
一种面向军事领域的社交网络特定目标账号挖掘方法


[0001]本专利技术属于军事
,提供了一种面向军事领域的社交网络特定目标账号挖掘方法。

技术介绍

[0002]社交网络已经成为现代生活中必不可少的一部分,积累的海量数据中蕴含着巨大的潜在价值。如何快速地从海量社交账号中发现特定的目标账号,对于军事领域来说,具有重大的情报价值。
[0003]传统的社交网络分析方法往往是基于知识图谱的社交关系挖掘。首先会采集海量的社交账号,再通过好友、关注等关系来构建社交网络知识图谱,最后再进行基于知识图谱的分析挖掘。
[0004]常见的知识图谱分析算法有基于Louvain算法的社区发现、基于PageRank的中心检测算法、相似性推荐算法等。这些方法在金融、购物等领域得到了广泛的应用,但在军事领域应用较少。
[0005]传统的方法存在以下不足:
[0006]1、构建知识图谱需要采集的社交账号量较大,成本较高;
[0007]2、挖掘过程只考虑社交关系,而账号发布的文本、图片、视频等内容也包含重要的信息;
[0008]3、国外的Facebook、Twitter等社交媒体的用户体量巨大,全球有超过10亿的用户。采用传统的挖掘方法,需要采集千万、亿级的社交账号来构建大型知识图谱,耗时费力。同时,由于军事领域的特殊性,军人在社交媒体发布的信息较少,且很少有涉军的内容,对于账号挖掘带来了挑战。

技术实现思路

[0009]技术问题:为了解决现有技术的缺陷,本发布提供一种面向军事领域的社交网络特定目标账号挖掘方法,用于解决快速地从Facebook、Twitter中挖掘特定目标账号。
[0010]技术方案:本专利技术提供一种面向军事领域的社交网络特定目标账号挖掘方法,包括以下步骤:
[0011]步骤101,选定种子账号加入到种子账号池;
[0012]步骤102,对种子账号进行数据采集;
[0013]步骤103,利用自然语言处理技术与图像识别技术,对采集的种子账号数据进行处理;
[0014]步骤104,利用种子账号采集的数据和经处理后的数据,对种子账号进行打分分档处理;
[0015]步骤105,对于分值较高的账号,重新作为种子账号加入到种子账号池,
[0016]重复步骤102~步骤104;
[0017]步骤106,当采集一定的层级或者账号数据集,账号发现部分停止;
[0018]步骤107,构建社交网络知识图谱;
[0019]步骤108,采用社交网络知识图谱进行特定目标账号的挖掘。
[0020]其中,步骤102中,采集的种子账号的数据包括种子账号的基本信息和社交关系网络;所述种子账号的基本信息,包括简介、头像图片、职业、所在地、毕业院校;种子账号的社交关系网络,包括关注列表、好友列表以及账号发布的文本、图片、点赞人列表、评论者列表。
[0021]其中,步骤103中,对采集的种子账号数据进行处理的方法包括:对账号发布的文本进行军事类文本分类、军事命名实体识别、关键事件提取;对账号发布的图片进行图像检测与识别,识别内容包括人脸、军装、军种、军衔、胸章、臂章。
[0022]其中,步骤104中,对种子账号进行打分分档处理用种子账号综合评分模型的建立:
[0023]1、构建种子账号影响要素集合U={U1;U2;U3};
[0024]其中,分别对应种子账号基本信息要素、种子账号发布的文本信息要素以及种子账号发布的图片信息要素子集合,每个子集合包含m
i
项要素;
[0025]2、对种子账号基本信息要素、文本信息要素以及图片信息要素进行量化转换和/或消除量纲处理,形成基本信息要素、文本信息要素以及图片信息要素的量化值;
[0026]3、种子账号影响要素集合主成分数量的确定:
[0027]对基本信息要素、文本信息要素以及图片信息要素的量化值数据进行标准化转换,建立如下标准化矩阵:
[0028][0029][0030][0031]Z=(z
ij
)
n
×
p
其中,x
ij
为第i个种子账号的第j个要素的值;表示所有种子账号第j个要素的平均值;s
j
为所有种子账号第j个要素的标准差;n为初始种子账号数量;p为所有要素数量,i=1,2,

,n,j=1,2,

,p;
[0032]计算标准化矩阵Z的相关矩阵,构建相关矩阵R=(r
jk
)
p
×
p
表示要素间的相关性,r
jk
为要素i和要素k的相关系数:
[0033][0034]通过相关性分析得到相关矩阵R的特征根:
[0035]λ
g
(g=1,2,

,p,λ1≥λ2≥

≥λ
p
),代表各主成分F
g
的方差,描述了各主成分对综合评分贡献度的大小;
[0036]按照累计贡献率≥85%的原则,主成分数量c应满足条件:
[0037]基于此公式,确定最终的主成分个数;
[0038]从而获得种子账号重要影响要素集合U

={U
′1,U
′2,U
′3},其中,
[0039][0040]以及种子账号重要影响要素贡献度集合其中,i=1,2,3,∑γ
i
=1;
[0041]4、种子账号综合评分模型的建立:
[0042]利用种子账号重要影响要素集合以及种子账号重要影响要素贡献度集合,得到种子账号综合评分模型如下:
[0043][0044][0045]其中,Score
max
和Score
min
分别代表最大得分和最小得分,Score

为归一化得到的账号最终得分,值分布在[0,1]之间;
[0046]基于账号得分Score

值的区间分布,可以将账号划分为A,B,C,D等不同档位,在后续步骤中根据不同账号等级,区分新账号采集的优先级。
[0047]其中,步骤107中,社交网络知识图谱的建立,具体包括以下方法:
[0048]1、基于步骤102采集的基本信息(好友、关注者、点赞者以及评论者),构建知识图谱;将步骤104的打分作为账号实体的权重,将点赞、评论次数作为好友关系的权重;
[0049]2、基于步骤103对账号发布的文本提取到的军事实体,作为提及关系进行知识图谱构建;
[0050]3、基于步骤103对账号发布的图片识别到的人脸特征进行相似账号关联,作为同框关系进行知识图谱构建。
[0051]其中,步骤108中,采用社交网络知识图谱进行特定目标账号的挖掘的方法包括:基于节点权重、关系权重,通过基于Jaccard距离的节点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向军事领域的社交网络特定目标账号挖掘方法,其特征在于:包括以下步骤:步骤101,选定种子账号加入到种子账号池;步骤102,对种子账号进行数据采集;步骤103,利用自然语言处理技术与图像识别技术,对采集的种子账号数据进行处理;步骤104,利用种子账号采集的数据和经处理后的数据,对种子账号进行打分分档处理;步骤105,对于分值较高的账号,重新作为种子账号加入到种子账号池,重复步骤102~步骤104;步骤106,当采集一定的层级或者账号数据集,账号发现部分停止;步骤107,构建社交网络知识图谱;步骤108,采用社交网络知识图谱进行特定目标账号的挖掘。2.根据权利要求1所述的一种面向军事领域的社交网络特定目标账号挖掘方法,其特征在于:步骤102中,采集的种子账号的数据包括种子账号的基本信息和社交关系网络;所述种子账号的基本信息,包括简介、头像图片、职业、所在地、毕业院校;种子账号的社交关系网络,包括关注列表、好友列表以及账号发布的文本、图片、点赞人列表、评论者列表。3.根据权利要求1所述的一种面向军事领域的社交网络特定目标账号挖掘方法,其特征在于:步骤103中,对采集的种子账号数据进行处理的方法包括:对账号发布的文本进行军事类文本分类、军事命名实体识别、关键事件提取;对账号发布的图片进行图像检测与识别,识别内容包括人脸、军装、军种、军衔、胸章、臂章。4.根据权利要求1所述的一种面向军事领域的社交网络特定目标账号挖掘方法,其特征在于:步骤104中,对种子账号进行打分分档处理用种子账号综合评分模型的建立:1、构建种子账号影响要素集合U={U1;U2;U3};其中,分别对应种子账号基本信息要素、种子账号发布的文本信息要素以及种子账号发布的图片信息要素子集合,每个子集合包含m
i
项要素;2、对种子账号基本信息要素、文本信息要素以及图片信息要素进行量化转换和/或消除量纲处理,形成基本信息要素、文本信息要素以及图片信息要素的量化值;3、种子账号影响要素集合主成分数量的确定:对基本信息要素、文本信息要素以及图片信息要素的量化值数据进行标准化转换,建立如下标准化矩阵:立如下标准化矩阵:立如下标准化矩阵:Z=(z
ij
)
n
×
p
其中,x
ij
为第i个种子账号的第j个要素的值;表示所有种子账号第j个要素的平均值;s
j
为所有种子账号第j个要素的标准差;n为初始种子账号数量;p为所有要素数量,i=1,2,

,n,j=1,2,

,p;计算标准化矩阵Z的相关矩阵,构建相关矩阵R=(r
jk
)
p
×
p
表示要素间的相关性,r
jk
为要素i和要素k的相关系数:通过相关性分析得到相关矩阵R的特征根:λ
g
(g=1,2,

,p,λ1≥λ2≥

≥λ
p
),代表各主成分F
g
的方差,描述了各主成分对综合评分贡献度的大小;按照累计贡献率≥85%的原则,主成分数量c应满足条件:基于此公式,确定最终的主成分个数;从而获得种子账号重要影响要素集合U

={U
′1,U
′2,U

【专利技术属性】
技术研发人员:周亚张文峰贾学良张豪杰杨理想余祖应
申请(专利权)人:南京星耀智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1