一种基于知识图谱的特定群体分析方法与系统技术方案

技术编号:31615286 阅读:19 留言:0更新日期:2021-12-29 18:48
本发明专利技术公开了一种基于知识图谱的特定群体分析方法与系统,属于知识图谱技术领域,针对现有技术中存在的对特定群体进行分析的方法存在采集数据量巨大,并且人工难以对采集的数据进行分析问题,本发明专利技术提出了一种基于知识图谱的特定群体分析方法与系统,通过对特定群体数据进行采集,然后映射为有关系链接的结构化数据,根据该结构化数据生成特定成员关系,然后对结构化数据和特定成员关系进行分析,构成结构化群体数据,通过该结构化群体数据实现对特定线上群体和特定线下群体的统计和分析。对特定线上群体和特定线下群体的统计和分析。对特定线上群体和特定线下群体的统计和分析。

【技术实现步骤摘要】
一种基于知识图谱的特定群体分析方法与系统


[0001]本专利技术属于知识图谱
,具体涉及一种基于知识图谱的特定群体分析方法与系统。

技术介绍

[0002]知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转换为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
[0003]现有的对特定群体进行分析方法主要包括采集特定群体数据,然后通过人工对数据进行分析,得到特定线上群体和特定线下群体的详细信息,例如对非正常行为嫌疑人进行分析,得到嫌疑人线上群体和嫌疑人线下群体的详细信息。
[0004]现有的对特定群体进行分析的方法存在的问题是:由于采集的特定群体数据量巨大,现有的技术中没有将这些群体数据进行结构化的处理,通过人工对数据进行分析,难以实现对特定群体的精准分析。

技术实现思路

[0005]针对现有技术中存在的问题,本专利技术提出了一种基于知识图谱的特定群体分析方法与系统,其目的为:通过对特定群体数据进行技术手段的采集,使用大数据分析和数据挖掘等技术,对特定群体数据进行精准分析,并对应作出适合当前任务的方法和系统。
[0006]为实现上述目的本专利技术所采用的技术方案是:一种基于知识图谱的特定群体分析方法,包括:
[0007]步骤1:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;
[0008]步骤2:对初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;
[0009]步骤3:通过对步骤1中所述初始结构化群体数据和步骤2生成的特定成员关系进行数据挖掘和深度数据分析,进一步构建直观表现群体情况的结构化群体数据;
[0010]步骤4:对步骤3中所述结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;
[0011]步骤5:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体的分析结果进行更新。
[0012]较优的,本专利技术所述步骤1具体为:
[0013]对数据进行清洗,删掉不符合特定群体分析的数据,对符合特定群体数据的字段数据进行保存;对每个字段数据进行检查,对无效字段进行统一处理;然后通过设计好的知识图谱结构,将离散的字段数据按照指定的唯一节点和唯一关系的方式映射进图数据库
中。
[0014]较优的,本专利技术所述步骤2中特定成员关系包括关系数据和节点数据,具体为:
[0015]当多个特定成员存在相同的唯一身份信息时,将他们连接到表示同一个特定成员的节点数据下;
[0016]当特定成员使用不同的登录IP或不同的登录地址访问非法网站时,生成一个登录过的关系数据表示该特定成员访问过该非法网站。
[0017]较优的,本专利技术步骤3具体包括:对步骤1中的图数据库的特定群体数据和步骤2 生成的特定成员关系进行分析,具体包括:
[0018]同一特定成员访问不同非法网站且属于不同的服务器时,将这些服务器归为同一群体的服务器;
[0019]同一非法网站属于不同服务器时,将这些服务器归为同一群体的服务器。
[0020]较优的,本专利技术步骤4具体包括:
[0021]采集同一非法网站的下所有特定成员信息,将他们标记为同一特定线上群体;
[0022]将同一服务器的所有非法网站标记为一个特定线上群体所拥有的;
[0023]将同一特定线上群体下的所有服务器标记为属于一个特定线上群体;
[0024]对同一非法网站下的特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
[0025]对同一服务器下的所有非法网站下的所有特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;
[0026]对同一群体下的所有服务器下的所有非法网站下的所有特定线上群体成员按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息。
[0027]本专利技术还提出了一种基于知识图谱的特定群体分析系统,包括:
[0028]数据映射模块:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;
[0029]特定成员关系生成模块:对所述初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;
[0030]特定群体分析模块:通过所述初始结构化群体数据和特定成员关系生成模块生成的特定成员关系,构建最终直观表现群体情况的结构化群体数据;
[0031]特定群体模块:对结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;
[0032]更新模块:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体的分析结果进行更新。
[0033]较优的,本专利技术所述数据映射模块具体为:
[0034]基于数据统计和知识图谱设计,分析采集好的特定群体数据;并设计知识图谱的结构为唯一ID表示唯一的节点和唯一的关系的形式;然后根据设计好的知识图谱结构, 通过该结构的形式对采集的特定群体数据进行检测;如果有这种形式的数据则进行合并,如果没有则以导入的方式检测数据;检测完成后,将检测后的数据按设计好的知识图谱格式导入知识图谱库,形成初始结构化群体数据。
[0035]较优的,本专利技术所述特定成员关系生成模块具体为:
[0036]通过映射模块导入的初始结构化群体数据进行特定成员的关系分析,生成特定成员关系;包括:
[0037]特定成员登录某非法网站时对使用过登录IP和登录地址进行记录,然后为该特定成员和非法网站之间生成一条登录过的关系;
[0038]通过统计和分析所有特定成员的唯一身份信息,用于分析多个不同的特定成员ID 为物理世界中的同一个人,若多个特定成员ID的唯一身份信息相同则生成唯一的真实特定成员ID节点用以表示该真实特定成员ID,并将真实特定成员ID节点链接到对应的唯一身份信息相同的特定成员ID节点。
[0039]较优的,本专利技术所述特定群体分析模块具体为:
[0040]通过映射模块导入的结构化数据和特定成员关系生成模块生成的特定成员关系进行分析;具体包括:
[0041]通过对初始结构化群体数据分析,若同一非法网站存在于多台服务器,将这些服务器判定为同一特定线上群体;
[0042]通过对初始结构化群体数据分析,若同一特定成员访问不同非法网站且多个不同的非法网站属于不同服务器,将这些服务器判定为同一特定线上群体;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的特定群体分析方法,其特征在于:步骤1:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;步骤2:对初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;步骤3:通过对步骤1中所述初始结构化群体数据和步骤2生成的特定成员关系进行数据挖掘和深度数据分析,进一步构建直观表现群体情况的结构化群体数据;步骤4:对步骤3中所述结构化群体数据进一步分析,得到特定线下群体、特定线上群体,以及特定线下群体和特定线上群体中的所有特定成员的详细信息;步骤5:定期增量更新特定群体数据,计算特定群体的分析结果,最后对特定群体的分析结果进行更新。2.根据权利要求1所述的一种基于知识图谱的特定群体分析方法,其特征在于,所述步骤1中对数据进行预处理具体为:对数据进行清洗,删掉不符合特定群体分析的数据,对符合特定群体数据的字段数据进行保存,对每个字段数据进行检查,对无效字段进行统一处理;预处理完成后,然后通过设计好的知识图谱结构,将离散的字段数据按照指定的唯一节点和唯一关系的方式映射进图数据库中。3.根据权利要求1所述的一种基于知识图谱的特定群体分析方法,其特征在于,在步骤2中,特定成员关系包括关系数据和节点数据,生成的方式包括:当多个特定成员存在相同的唯一身份信息时,将他们连接到表示同一个特定成员的节点数据下;当一个特定成员使用不同的登录IP或不同的登录地址访问非法网站时,生成一个登录过的关系数据表示该特定成员访问过该非法网站。4.根据权利要求1所述的一种基于知识图谱的特定群体分析方法,其特征在于,步骤3中构建结构化群体数据的具体实现方式包括:同一特定成员访问不同非法网站且属于不同的服务器时,将这些服务器归为同一特定线上群体的服务器;同一非法网站属于不同服务器时,将这些服务器归为同一特定线上群体的服务器。5.根据权利要求1所述的一种基于知识图谱的特定群体分析方法,其特征在于,步骤4中对结构化群体数据进一步分析具体包括:采集同一非法网站的下所有特定成员信息,将他们标记为同一特定线上群体;将同一服务器的所有非法网站标记为一个特定线上群体所拥有的;将同一特定线上群体下的所有服务器标记为属于一个特定线上群体;对同一非法网站下的特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;对同一服务器下的所有非法网站下的所有特定线上群体按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息;对同一特定线上群体下的所有服务器下的所有非法网站下的所有特定线上群体成员按地理位置进行线下定位和线下群体分析,得到这些特定线上群体的地理位置和成员信息。6.一种基于知识图谱的特定群体分析系统,其特征在于,包括:
数据映射模块:采集原始的特定群体的数据,将采集的数据进行预处理,然后通过知识图谱映射到图数据库中,构建初始结构化群体数据;特定成员关系生成模块:对所述初始结构化群体数据进行深度分析,生成特定群体中的特定成员关系;特定群体分析模块:通过所述初始结构化群体数据和特定成员关系生成模块生成的特定成员关系,构建最终直观表现群体情况的结构化群体数据;特定群体模块:对结构化群体数据进一步分析,得到特定线下群体、特定线上群体,...

【专利技术属性】
技术研发人员:张浩张瑞冬马永霄童永鳌朱鹏漆伟
申请(专利权)人:成都无糖信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1