【技术实现步骤摘要】
一种用于重叠社区发现的关系预测方法、装置和存储介质
本专利技术涉及机器学习
,尤其涉及一种用于重叠社区发现的关系预测方法、装置和存储介质。
技术介绍
随着科学技术的迅猛发展,当今世界中出现了很多以复杂网络的形式存在或能被转化成复杂网络的复杂系统,例如社会系统中的人际关系网、学术研究中的科学家协作网、医学领域中的流行病传播网、生物学中的神经元网基因调控网和蛋白质交互网、科技系统中的电话网因特网和万维网等等。而社区发现则是理解这些复杂网络结构,从网络结构中提取有用信息的关键。社区发现能帮助人分析网络的拓扑结构、理解网络功能、揭示网络中的隐含模式以及分析预测网络行为。在复杂网络研究中,社区一般被定义为复杂网络中的一些节点集合,在同一节点集合中的连接更加紧密,而不同节点集合之前的连接相对稀疏。一般的社区发现方法中,一个复杂网络中的节点只能属于一个社区,而重叠社区发现方法中一个节点可以属于多个社区,例如某一个人可以属于家庭、学校、公司和朋友圈子等多个社区。基于用户通信信息的复杂关系网络一般由图来表示,图中的节点表示用户,而节点之 ...
【技术保护点】
1.一种用于重叠社区发现的关系预测方法,其特征在于,包括:/n获取用户通信信息中包含的信息内容并分类;/n确定每一类信息内容中包含的两两信息内容之间的相似度;/n对于相似度大于预设阈值的两条信息内容,构建该两条信息内容的发送信息用户之间的短时转发关系;/n构建所述用户通信信息中发送信息用户和接收信息用户之间的收发关系;/n根据所述短时转发关系和所述收发关系,构建用户关系图;/n基于所述用户关系图,利用社区发现算法进行社区发现。/n
【技术特征摘要】
1.一种用于重叠社区发现的关系预测方法,其特征在于,包括:
获取用户通信信息中包含的信息内容并分类;
确定每一类信息内容中包含的两两信息内容之间的相似度;
对于相似度大于预设阈值的两条信息内容,构建该两条信息内容的发送信息用户之间的短时转发关系;
构建所述用户通信信息中发送信息用户和接收信息用户之间的收发关系;
根据所述短时转发关系和所述收发关系,构建用户关系图;
基于所述用户关系图,利用社区发现算法进行社区发现。
2.根据权利要求1所述的方法,其特征在于,按照以下流程对获取的用户通信信息中的信息内容进行分类:
按照预设时间间隔将获取的用户通信信息分组;
针对每一组用户通信信息中包含的信息内容,获取信息内容的关键词和词频;
根据获取的关键词和词频,对信息内容进行分类。
3.根据权利要求2所述的方法,其特征在于,针对每一组用户通信信息中包含的信息内容,获取信息内容的关键词和词频,具体包括:
利用预先建立的关键词字典初始化AC自动机;
针对每一组用户通信信息,利用所述AC自动机分别提取该组用户通信信息中每一条信息内容中出现的关键词及其对应的词频;
根据获取的关键词和词频,对信息内容进行分类,具体包括:
根据每一条信息内容中出现的关键词及其对应的词频构建该条信息内容对应的二元组集合;
确定对应的二元组集合相同的两条信息内容属于同一类别。
4.根据权利要求3所述的方法,其特征在于,所述关键词字典为按照以下方法获得的:
对用户通信信息样本进行分词得到若干词语;
针对每一词语,确定该词语对应的词频-逆文本频率TF-IDF;
按照各词语对应的TF-IDF由大到小的顺序选择预设数量的词语组成关键字词典。
5.根据权利要求1所述的方法,其特征在于,确定...
【专利技术属性】
技术研发人员:任博雅,李扬曦,刘权,胡燕林,佟玲玲,缪亚男,时磊,徐雅静,许科瑞,李思,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。