当前位置: 首页 > 专利查询>同济大学专利>正文

一种知识图谱异常社区检测方法及装置制造方法及图纸

技术编号:24331127 阅读:48 留言:0更新日期:2020-05-29 19:38
本发明专利技术涉及一种知识图谱异常社区检测方法及装置,所述方法包括以下步骤:步骤一,根据应用场景及数据集,构建异质知识图谱;步骤二,从所述异质知识图谱提取一个仅有实体的同质网络;步骤三,对所述同质网络中的每一连通子图,使用网络嵌入技术获得各连通子图的节点距离向量;步骤四,基于所述节点距离向量对各连通子图进行聚类,生成社区;步骤五,根据每个社区内异常标签数据和正常标签数据的比例判断对应社区是否为异常社区。与现有技术相比,本发明专利技术具有准确性高、对标签数据依赖小等优点。

An abnormal community detection method and device of knowledge map

【技术实现步骤摘要】
一种知识图谱异常社区检测方法及装置
本专利技术涉及知识图谱
,尤其是涉及一种知识图谱异常社区检测方法及装置。
技术介绍
构建知识图谱后,挖掘图谱中异常社区是许多应用场景都要面临的问题之一。但是构建的知识图谱往往十分庞大,难以从里面直接提取出有效的特征来获取异常社区。若采用人工设置特征的方式进行分析,有极大的可能会因为人为无法对全局考虑导致得到的异常社区存在偏差。但是大量的异常社区的特征又隐藏于知识图谱中,因此需要一种能够自动挖掘异常社区特征,将异常数据聚集在一起获取异常社区的方法。目前在知识图谱应用领域,现有的方法是分析异常数据周围的邻居节点,即若知识图谱中出现异常数据,则其周围的信息有极大的概率组成异常社区。然而这种方法对知识图谱内数据的标签量有十分严格的要求,若标签量较少则很难挖掘出异常社区。因此单纯标识知识图谱中异常数据节点附近的数据为异常社区具有很大的局限性,若加入大量新的节点后,可能会导致输出的结果之间差异性较大。另外一种分析异常社区的方法则是通过节点之间的跳数,以此为节点之间的距离,生成一个距离矩阵,然后利用该距离矩阵对知识图谱内的节点使用聚类算法。这种方法能够有效检测出知识图谱中异常社区,但是存在着效率低下的问题。首先这种方法需要存储一个每个节点间的距离矩阵,若知识图谱中的节点数较多,则维护这个距离矩阵的成本较大,会需要较大的存储空间,假如知识图谱中节点之间的关系较为稀疏,则距离向量中会存储许多无效的数据,造成存储空间的浪费。其次这种方法每次的运行效率低下,当加入新的节点时,就需要重新计算每个节点之间的距离,而这种计算过程是对整个知识图谱进行计算,因此所需的时间成本较高,若知识图谱内的节点较多则效率较低。综上所述,现有的分析知识图谱异常社区的方法存在较多弊端,缺乏行之有效的方法快速检测出知识图谱中异常社区和挖掘异常社区的特征。
技术实现思路
本专利技术的目的在于克服上述现有技术存在的缺陷而提供一种知识图谱异常社区检测方法及装置。本专利技术的目的可以通过以下技术方案来实现:一种知识图谱异常社区检测方法,包括以下步骤:步骤一,根据应用场景及数据集,构建异质知识图谱;步骤二,从所述异质知识图谱提取一个仅有实体的同质网络;步骤三,对所述同质网络中的每一连通子图,使用网络嵌入技术获得各连通子图的节点距离向量;步骤四,基于所述节点距离向量对各连通子图进行聚类,生成社区;步骤五,根据每个社区内异常标签数据和正常标签数据的比例判断对应社区是否为异常社区。进一步地,所述步骤一中,根据应用场景获得数据集的有效特征,基于所述有效特征获得构建知识图谱所需的实体和关系,获得所述异质知识图谱。进一步地,所述步骤二中,基于图数据库提取所述同质网络。进一步地,所述同质网络中,基于两个实体间的关系数量设置对应实体间的边权重。进一步地,所述步骤五中,若异常标签数据和正常标签数据的比例超过设定阈值,则判定该社区为异常社区,反之,则为正常社区;若社区内无标签数据,则判定该社区为正常社区或者判定该社区为灰色社区。本专利技术还提供一种知识图谱异常社区检测装置,包括:异质知识图谱构建模块,用于根据应用场景及数据集,构建异质知识图谱;同质网络提取模块,用于从所述异质知识图谱提取一个仅有实体的同质网络;距离向量获取模块,用于对所述同质网络中的每一连通子图,使用网络嵌入技术获得各连通子图的节点距离向量;聚类模块,用于基于所述节点距离向量对各连通子图进行聚类,生成社区;判断模块,用于根据每个社区内异常标签数据和正常标签数据的比例判断对应社区是否为异常社区。进一步地,所述异质知识图谱构建模块中,根据应用场景获得数据集的有效特征,基于所述有效特征获得构建知识图谱所需的实体和关系,获得所述异质知识图谱。进一步地,所述同质网络提取模块中,基于图数据库提取所述同质网络。进一步地,所述同质网络中,基于两个实体间的关系数量设置对应实体间的边权重。进一步地,所述判断模块中,若异常标签数据和正常标签数据的比例超过设定阈值,则判定该社区为异常社区,反之,则为正常社区;若社区内无标签数据,则判定该社区为正常社区或者判定该社区为灰色社区。与现有技术相比,本专利技术具有如下有益效果:1、本专利技术能够自动化挖掘异常群体的特征,并能够根据挖掘出的特征识别知识图谱内异常的社区,进而避免人工挑选特征导致的误差。2、本专利技术能够将知识图谱内相似节点聚集在一起形成社区,并根据社区内异常数据与正常数据的比例自动化确定该社区是否为异常社区,并加以标识,准确性高。3、本专利技术的应用场景中原始数据集内或采集数据中标签占比很少,能够减少对标签数据数量的依赖,从而使用少量的标签数据检测出异常社区。附图说明图1为本专利技术的流程示意图;图2为本专利技术聚类判断过程示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。实施例1本实施例提供一种知识图谱异常社区检测方法,如图1和图2所示,包括以下步骤:在步骤S101中,根据应用场景及数据集,数据集中包含带有标签的数据,分析数据集内的有效特征,得出构建知识图谱所需的实体和关系,当两个实体相同的特征值相同时,则判断这两个实体之间具有联系,即这两个实体为一阶邻居的关系。其中,有效特征可以通过自动化特征工程或人工选择特征的方法获得。本实施例以网络借贷场景为例,网络借贷数据集中包括每笔借贷的申请单号,申请人的信息如申请人的身份证号码、手机号码、居住地址等信息。在网络借贷场景中,需要分析的是哪些申请单号为异常的申请,因此以申请单号作为实体,其他有效信息作为构建知识图谱所需的特征。当两个实体即两个申请单号的申请人身份证号码相同时,则可以判断这两个申请单号之间存在联系。在步骤S102中,根据拆分得出的知识图谱的实体和关系,构建知识图谱,获得一个同时具有实体和关系的异质网络。异质网络中展示了实体之间通过哪些特征连接在一起,即对于一阶邻居的实体之间存在着这两个实体在同一特征上相同的值。构建异质的知识图谱可以采用图数据库,将拆分出的实体和实体间的关系导入图数据库中,构建一个异质的知识图谱。在本实施例的网络借贷场景中,两个申请单号通过同一个申请人的身份证号码连接,因此构建的异质知识图谱中两个申请单号节点都连接至同一个身份证号的节点上。在步骤S103中,从所述异质知识图谱提取一个仅有实体的同质网络该同质网络仅含有一种类型的节点,即为需要分析的实体节点。同质网络与异质网络的区别在于,同质网络中仅包含实体,不包括实体间连接的特征,同质的知识图谱获取可以通过已构建完成的异质的知识图谱所采用图数据库中的具体查询语句构建,根据构建的异质的知识本文档来自技高网
...

【技术保护点】
1.一种知识图谱异常社区检测方法,其特征在于,包括以下步骤:/n步骤一,根据应用场景及数据集,构建异质知识图谱;/n步骤二,从所述异质知识图谱提取一个仅有实体的同质网络;/n步骤三,对所述同质网络中的每一连通子图,使用网络嵌入技术获得各连通子图的节点距离向量;/n步骤四,基于所述节点距离向量对各连通子图进行聚类,生成社区;/n步骤五,根据每个社区内异常标签数据和正常标签数据的比例判断对应社区是否为异常社区。/n

【技术特征摘要】
1.一种知识图谱异常社区检测方法,其特征在于,包括以下步骤:
步骤一,根据应用场景及数据集,构建异质知识图谱;
步骤二,从所述异质知识图谱提取一个仅有实体的同质网络;
步骤三,对所述同质网络中的每一连通子图,使用网络嵌入技术获得各连通子图的节点距离向量;
步骤四,基于所述节点距离向量对各连通子图进行聚类,生成社区;
步骤五,根据每个社区内异常标签数据和正常标签数据的比例判断对应社区是否为异常社区。


2.根据权利要求1所述的知识图谱异常社区检测方法,其特征在于,所述步骤一中,根据应用场景获得数据集的有效特征,基于所述有效特征获得构建知识图谱所需的实体和关系,获得所述异质知识图谱。


3.根据权利要求1所述的知识图谱异常社区检测方法,其特征在于,所述步骤二中,基于图数据库提取所述同质网络。


4.根据权利要求1所述的知识图谱异常社区检测方法,其特征在于,所述同质网络中,基于两个实体间的关系数量设置对应实体间的边权重。


5.根据权利要求1所述的知识图谱异常社区检测方法,其特征在于,所述步骤五中,若异常标签数据和正常标签数据的比例超过设定阈值,则判定该社区为异常社区,反之,则为正常社区;
若社区内无标签数据,则判定该社区为正常社区或者判定该社区为灰色社区。


6.一种知识图谱异常社区检...

【专利技术属性】
技术研发人员:王成胡瑞鑫朱航宇
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1