【技术实现步骤摘要】
基于置信度的群体发现方法及装置
本专利技术涉及计算机
,尤其涉及一种基于置信度的群体发现方法及装置。
技术介绍
随着互联网的飞速发展,社交网络已经成为当今人们日常交流、信息共享的重要平台。群体是社交网络重要的中观组织,群体发现与分析不仅有重要的理论意义,还推动了社交网络的应用与发展,并且能够发现危害社会安全的恶意行为群体,指导进行合理的管控,对于促进社交网络服务以及安全治理均具有重要的研究意义和应用价值。然而,用户在社交网络平台产生的海量数据为群体发现和行为分析带来了巨大的机遇和挑战,如何从大量的网络用户中发现特定的群体并对其行为进行分析是我们急需解决的问题。传统的群体发现算法基于社区结构内聚的思想,主要考虑社交网络在结构上内聚的特征,即同一社区内的节点连接紧密,不同社区内的节点之间连接稀疏。比较经典的群体发现算法包括:LPA算法,Louvain算法,CPM算法等。LPA(LabelPropagationAlgorithm)算法由UshaNandiniRaghavan等人于2007年提出,是基于图的半监 ...
【技术保护点】
1.一种基于置信度的群体发现方法,其特征在于,包括:/n步骤1,设置群体的约束条件,基于所述约束条件生成群体的候选用户集及候选网络;/n步骤2,基于所述候选用户集及所述候选网络综合得到每个候选用户属于该群体的置信度;/n步骤3,根据所述候选用户的置信度,与预先设置的置信度阈值进行比较,发现新种子用户和新候选用户;/n步骤4,获取新种子用户,重复执行步骤1-4直到达到预先设置的迭代次数。/n
【技术特征摘要】
1.一种基于置信度的群体发现方法,其特征在于,包括:
步骤1,设置群体的约束条件,基于所述约束条件生成群体的候选用户集及候选网络;
步骤2,基于所述候选用户集及所述候选网络综合得到每个候选用户属于该群体的置信度;
步骤3,根据所述候选用户的置信度,与预先设置的置信度阈值进行比较,发现新种子用户和新候选用户;
步骤4,获取新种子用户,重复执行步骤1-4直到达到预先设置的迭代次数。
2.如权利要求1所述的方法,其特征在于,设置群体的约束条件,基于所述约束条件生成群体的候选用户集及候选网络具体包括:
定义一个群体,设置该群体的约束条件,其中,所述约束条件包括以下至少之一:种子用户集、群体关键词、地域、时间;
从种子用户的短文本数据和通话数据中搜索与种子用户有过通联的用户,过滤掉不符合地域、时间约束的用户,将这些用户加入到候选用户集中;
全文检索短文本数据,找到包含所述群体关键词的文本,将相关的用户加入到候选用户集中;
根据候选用户集,候选用户间通过文本、通话进行关联,构成候选网络。
3.如权利要求1所述的方法,其特征在于,基于所述候选用户集及所述候选网络综合得到每个候选用户属于该群体的置信度具体包括:
对于候选用户集中的每个用户,获取其短文本特征,将每个用户的短文本内容进行分词和去除停用词处理,得到该用户的词集合,利用公式1计算所述词集合与所述群体关键词的匹配程度:
其中skey表示群体关键词集合,suser表示用户的词集合;
在候选网络中对于每个候选用户,抽取其与种子用户之间的多维通联特征,并对每一维通联特征做归一化处理,其中,所述多维通联特征具体包括以下至少之一:发送短文本频次、接收短文本频次、电话呼出频次、电话接收频次、通联的种子用户人数、通联总时间;
根据所述匹配程度和所述通联特征根据公式2计算每个候选用户属于该群体的置信度:
其中,u为候选用户的特征,α为特征的权重,k为特征总个数。
4.如权利要求1所述的方法,其特征在于,根据所述候选用户的置信度,与预先设置的置信度阈值进行比较,发现新种子用户和新候选用户具体包括:
定义置信度阈值β和置信度阈值γ,且0<β<γ<1;
根据每个候选用户的置信度,筛选出大于置信度阈值β的用户作为该群体新发现的用户,加入到发现用户集合中;
筛选出发现用户集合中发现用户的阈值大于置信度阈值γ的用户,将其作为种子用户继续发现新的候选用户。
5.一种基于置信度的群体发现装置,其特征在于,包括:
生成模块,用于设置群体的约束条件,基于所述约束条件生成群体的候选用户集及候选网络;
置...
【专利技术属性】
技术研发人员:井雅琪,李扬曦,任博雅,杨亚茹,沈华伟,佟玲玲,时磊,王永庆,段运强,段东圣,
申请(专利权)人:国家计算机网络与信息安全管理中心,中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。