一种社交群体发现方法、装置和存储介质制造方法及图纸

技术编号:23149254 阅读:61 留言:0更新日期:2020-01-18 13:32
本发明专利技术提出了一种社交群体发现方法、装置和存储介质,用以提高社交群体发现精度和准确度。所述社交群体发现方法,包括:利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;根据提取的关联特征信息,确定每一候选用户对应的置信度;确定对应的置信度大于预设阈值的候选用户为目标用户;根据目标用户之间的通信联系建立初始群体网络;利用群体发现算法从所述初始群体网络中发现社交群体子网络。

A social group discovery method, device and storage medium

【技术实现步骤摘要】
一种社交群体发现方法、装置和存储介质
本专利技术涉及社交网络分析
,尤其涉及一种社交群体发现方法、装置和存储介质。
技术介绍
近年来随着社交网络的发展,群体或者社区发现与分析研究领域的关注度大大提升。社区或者群体反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系,研究网络中的群体对理解整个网络的结构和功能起到至关重要的作用,并且可帮助我们分析及预测整个网络各元素间的交互关系。群体发现算法广泛应用在社交网络数据挖掘等领域之中。世界各国的政府、警方和研究人员都在用包括群体发现在内的多种社交网络分析手段来对潜在或者正在发生的恐怖和犯罪活动进行监测和分析。通过对社交应用等多种媒体的信息进行分析,发现犯罪网络,能够快速锁定犯罪分子中的重要人员。对犯罪团伙的犯罪行为进行追踪,可以有效的防范犯罪行为的发生,打击犯罪团伙,维护社会的治安与稳定。在互联网数据的基础上,我们可以构建出以信息资源为节点的网络。如图片、视频、帖子、新闻、个人账户等。网络的连边为用户在资源之间的流动或者信息在用户之间的流动。但是,现有的社交群体子网络发现算法数据通常为通过互联网收集的数据,即用户访问网络所产生的数据,数据来源单一,降低了社交群体发现的精度和准确度。
技术实现思路
本专利技术要解决的技术问题是针对由于数据来源单一,导致现有的社交群体发现精度和准确度较低,提供一种社交群体发现方法、装置和存储介质。本专利技术采用的技术方案是提供一种社交群体发现方法,包括:利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;根据提取的关联特征信息,确定每一候选用户对应的置信度;确定对应的置信度大于预设阈值的候选用户为目标用户;根据目标用户之间的通信联系建立初始群体网络;利用群体发现算法从所述初始群体网络中发现社交群体子网络。在一种可能的实施方式中,利用群体发现算法从所述初始群体网络中发现社交群体子网络,具体包括:从所述初始群体网络中,查找大小为K的完全子图,其中,K为大于1的整数;以每个完全子图为一个节点建立重叠矩阵;将所述重叠矩阵转换为邻接矩阵;确定所述邻接矩阵的每个连通分量为一个社交群体子网络。在一种可能的实施方式中,所述关联特征信息包括以下至少一项:所述候选用户与所述种子用户之间的短信交互频次、通话交互频次、短信内容相关度、通联时间和通联人数;根据提取的关联特征信息,确定每一候选用户对应的置信度,具体包括:针对每一候选用户,将该候选用户对应的每一关联特征信息进行归一化处理得到关联特征参数;根据所述关联特征参数确定该候选用户对应的置信度。在一种可能的实施方式中,本专利技术提供的社交群体子网络发现方法,还包括:针对每一社交群体子网络,根据社交群体子网络中网络节点的度由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为联系人众多的用户;和/或根据社交群体子网络中网络节点的介数由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为桥接用户;和/或根据社交群体子网络中网络边的权重由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为交互频繁用户。在一种可能的实施方式中,本专利技术提供的社交群体子网络发现方法,还包括:针对所述社交群体子网络中的任一用户,如果该用户对应的用户类型包括至少两个,则根据该用户在每一类型用户中对应的排序序号,确定对应的排序序号最小的用户类型为该用户对应的用户类型。在一种可能的实施方式中,本专利技术提供的社交群体子网络发现方法,还包括:获取所述社交群体子网络中任两个用户在预设时间段内的短信通联内容;按照短信发送时间升序排列获取的短信通联内容;计算相邻两条短信之间的时间间隔,得到时间间隔序列并按照升序排列;按照切分百分比将所述时间间隔序列切分为两段,所述切分百分比为利用标注有会话状态的短信样本数据进行训练得到的;标注第一段时间间隔对应的短信会话状态为会话中。在一种可能的实施方式中,本专利技术提供的社交群体子网络发现方法,还包括:针对每一社交群体子网络,连接短信会话状态为会话中的所有短信通联内容得到短文本;将所述短文本进行分词并去除停用词;根据预设的主题数量,利用主题发现模型进行主题发现;利用所述短文本中出现频次大于第一预设频次阈值的分词绘制主题词。在一种可能的实施方式中,本专利技术提供的社交群体子网络发现方法,还包括:针对每一社交群体子网络,获取根据该社交群体子网络中包含的用户之间发生通信联系时的地理位置信息和通联时间;根据获取的地理位置信息和用户之间的通信数据,构建地理位置通联网络并显示,所述地理位置通联网络中的网络节点为地理位置信息,网络的边的权重为各个网络节点用户通联次数之和;或者根据用户之间发生通信联系时的地理位置信息和通联时间,获得每个用户随时间变化的位置序列,每个位置序列构成一条位置轨迹;显示出现频次高于第二预设频次阈值的位置轨迹。本专利技术还提供一种社交群体发现装置,包括:第一查找单元,用于利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;提取单元,用于从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;第一确定单元,用于根据提取的关联特征信息,确定每一候选用户对应的置信度;网络构建单元,用于根据目标用户之间的通信联系建立初始群体网络,所述目标用户为置信度大于预设阈值的候选用户;利用群体发现算法从所述初始群体网络中发现社交群体子网络。在一种可能的实施方式中,所述网络构建单元,具体用于从所述初始群体网络中,查找大小为K的完全子图,其中,K为大于1的整数;以每个完全子图为一个节点建立重叠矩阵;将所述重叠矩阵转换为邻接矩阵;确定所述邻接矩阵的每个连通分量为一个社交群体子网络。在一种可能的实施方式中,所述关联特征信息包括以下至少一项:所述候选用户与所述种子用户之间的短信交互频次、通话交互频次、短信内容相关度、通联时间和通联人数;所述第一确定单元,具体用于针对每一候选用户,将该候选用户对应的每一关联特征信息进行归一化处理得到关联特征参数;根据所述关联特征参数确定该候选用户对应的置信度。在一种可能的实施方式中,本专利技术实施例提供的社交群体发现装置,还包括:第二确定单元,用于针对每一社交群体子网络,根据社交群体子网络中网络节点的度由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为联系人众多的用户;和/或根据社交群体子网络中网络节点的介数本文档来自技高网...

【技术保护点】
1.一种社交群体发现方法,其特征在于,包括:/n利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;/n从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;/n根据提取的关联特征信息,确定每一候选用户对应的置信度;/n根据目标用户之间的通信联系建立初始群体网络,所述目标用户为置信度大于预设阈值的候选用户;/n利用群体发现算法从所述初始群体网络中发现社交群体子网络。/n

【技术特征摘要】
1.一种社交群体发现方法,其特征在于,包括:
利用预先设定的种子用户和约束条件,从通信数据源中查找候选用户,所述候选用户包括与所述种子用户通信的第一用户和/或满足所述约束条件的第二用户;
从所述候选用户的通信数据中提取与所述种子用户关联的关联特征信息;
根据提取的关联特征信息,确定每一候选用户对应的置信度;
根据目标用户之间的通信联系建立初始群体网络,所述目标用户为置信度大于预设阈值的候选用户;
利用群体发现算法从所述初始群体网络中发现社交群体子网络。


2.根据权利要求1所述的方法,其特征在于,利用群体发现算法从所述初始群体网络中发现社交群体子网络,具体包括:
从所述初始群体网络中,查找大小为K的完全子图,其中,K为大于1的整数;
以每个完全子图为一个节点建立重叠矩阵;
将所述重叠矩阵转换为邻接矩阵;
确定所述邻接矩阵的每个连通分量为一个社交群体子网络。


3.根据权利要求1所述的方法,其特征在于,所述关联特征信息包括以下至少一项:所述候选用户与所述种子用户之间的短信交互频次、通话交互频次、短信内容相关度、通联时间和通联人数;
根据提取的关联特征信息,确定每一候选用户对应的置信度,具体包括:
针对每一候选用户,将该候选用户对应的每一关联特征信息进行归一化处理得到关联特征参数;
根据所述关联特征参数确定该候选用户对应的置信度。


4.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
针对每一社交群体子网络,根据社交群体子网络中网络节点的度由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为联系人众多的用户;和/或,
根据社交群体子网络中网络节点的介数由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为桥接用户;和/或,
根据社交群体子网络中网络边的权重由大到小的顺序选择预设数量的用户为关键用户,确定选择出的关键用户对应的用户类型为交互频繁用户。


5.根据权利要求4所述的方法,其特征在于,所述方法,还包括:
针对...

【专利技术属性】
技术研发人员:井雅琪李扬曦刘权段东圣张皓彭杨亚茹沈华伟佟玲玲任博雅胡燕林段运强时磊
申请(专利权)人:国家计算机网络与信息安全管理中心中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1