基于知识图谱的异常结构挖掘方法、装置及可读存储介质制造方法及图纸

技术编号:31022261 阅读:27 留言:0更新日期:2021-11-30 03:14
本发明专利技术提供了基于知识图谱的异常结构挖掘方法、装置、系统及计算机可读存储介质,该方法包括:构建知识图谱,知识图谱包括多个节点及基于节点关系确定的边;从知识图谱中选取初始节点以进行分层随机游走,记录游走到的节点序列以得到节点序列集;将节点序列集中的各节点序列转化为模式,得到模式集;根据模式集进行异常模式挖掘,得到异常结构。利用上述方法,能够实现更好的异常结构挖掘效果。能够实现更好的异常结构挖掘效果。能够实现更好的异常结构挖掘效果。

【技术实现步骤摘要】
基于知识图谱的异常结构挖掘方法、装置及可读存储介质


[0001]本专利技术属于图神经网络领域,具体涉及一种基于知识图谱的异常结构挖掘方法、装置及可读存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]目前,基于图的异常结构挖掘更倾向于对复杂结构的挖掘,如簇状、环状、链式、星形结构等,在图中查找是否存在定义的异常结构实现异常结构的发现,这种方法适用于多数具有丰富先验知识的场景,但无法发现未知的异常结构。
[0004]许多业务场景存在数据量大、无标签或少标签的情况,在图中很难从海量的节点和复杂的关系挖掘少量的异常结构,特别是某些简单的异常结构容易被大量的正常结构所覆盖,因此需要在不失真的前提下对图进行适当的简化。
[0005]因此,如何进行有效的异常结构挖掘是一个亟待解决的问题。

技术实现思路

[0006]针对上述现有技术中存在的问题,提出了一种基于知识图谱的异常结构挖掘方法、装置及计算机可读存储介质,利用这种方法、装置及计算机可读存储介质,能够解决上述问题。
[0007]本专利技术提供了以下方案。
[0008]第一方面,提供一种基于知识图谱的异常结构挖掘方法,包括:构建知识图谱,所述知识图谱包括多个节点及基于节点关系确定的边;从所述知识图谱中选取初始节点以进行分层随机游走,记录游走到的节点序列以得到节点序列集;将所述节点序列集中的各节点序列转化为模式,得到模式集;根据所述模式集进行异常模式挖掘,得到异常结构。
[0009]进一步地,所述构建知识图谱,还包括:确定节点构成实体、节点关系、节点属性、边属性;通过实体抽取、关系抽取和属性抽取构建所述知识图谱。
[0010]进一步地,从所述知识图谱中选取初始节点,还包括:计算所述知识图谱中所有节点的出度out j,根据所述节点的出度数进行分桶,其中分桶区间为k,分桶数为m;对每个所述分桶进行随机抽样,其中,从每个所述分桶内随机抽取n个节点以确定每个所述分桶内的抽样节点S
i
(v),得到初始节点集S(v)={S
i
(v),i=1,...,m},所述i为桶标识。
[0011]进一步地,对每个所述分桶进行随机抽样,还包括:若分桶内节点数小于n,采用过采样复制节点的方式补足。
[0012]进一步地,所述分层随机游走,还包括:根据从所述知识图谱中选取初始节点确定初始的节点集S(u);迭代执行以下步骤直至满足预设游走结束条件:将所述节点集S(u)中的各个节点u作为初始节点进行随机游走,且不访问已被访问过的路径,将游走得到的序列(u,v
i
)加入节点序列集Set(u),所述v
i
是节点u游走到的邻居节点,所述节点序列集Set(u)
的初始状态为空集;将所述节点序列(u,v
i
)组合作为新的节点,以更新所述节点集S(u)。
[0013]进一步地,所述预设游走结束条件包括:所述初始的节点集S(u)中的每个初始节点游走超过预设次数,和/或所述迭代达到预设轮次数。
[0014]进一步地,将所述节点序列集中的各节点序列转化为模式,还包括:获取节点与节点属性之间的映射关系;遍历所述节点序列集,依次根据所述映射关系将其中各个节点序列转化为模式,所述模式为所述节点属性的序列,并记录每个模式的出现次数。
[0015]进一步地,将所述节点序列集中的各节点序列转化为模式以得到模式集,还包括;获取所述节点序列集,创建模式集Mod(mod,c),所述模式集的初始状态为空集,其中mod指示模式,c指示模式出现次数;遍历所述节点序列集以迭代执行以下步骤,直至所述节点序列集成为空集:根据所述映射关系将当前遍历到的节点序列转换为对应的模式;判断所述模式是否存在于当前的所述模式集中,若不存在,将所述模式加入所述模式集并记录其模式出现次数为1,若已存在,则将所述模式的模式出现次数加1;将已遍历到的节点序列从当前的节点序列集移除。
[0016]进一步地,根据所述模式集进行异常模式挖掘,还包括:根据所述模式集中各个模式的出现次数,构建疑似异常模式集E

(mod);对所述疑似异常模式集E

(mod)的模式进行全图遍历,统计每个模式的全图出现次数;通过判断每个模式的全图出现次数是否小于预设阈值,从所述疑似异常模式集E

(mod)中提取所述异常模式集E(mod)。
[0017]进一步地,根据所述模式集中各个模式的出现次数,构建疑似异常模式集E

(mod),还包括:计算所述模式集中各个模式的出现次数的中位值,根据出现次数小于所述中位值的模式构建所述疑似异常模式集E

(mod)。
[0018]进一步地,所述方法还包括:当需要更新所述知识图谱时,采用增量更新方式对所述知识图谱进行更新。
[0019]进一步地,采用增量更新方式对所述知识图谱进行更新,还包括:获取待更新图数据,基于所述待更新图数据构建子图;采用上述分层随机游走,得到所述子图的更新节点序列集;将所述子图添加到原有的知识图谱中,以子图与知识图谱的连接点作为起始点进行全图随机游走,将得到的节点序列加入所述更新节点序列集;将所述更新节点序列集进行模式转换,并更新模式集;基于更新的模式集更新异常模式集,其中,如将子图的模式与异常模式进行模式匹配,则可以认为子图中存在异常结构。
[0020]第二方面,提供一种基于知识图谱的异常结构挖掘装置,被配置为用于执行如第一方面的方法,且包括:图谱构建模块,用于构建知识图谱,所述知识图谱包括多个节点及基于节点关系的边;分层随机游走模块,用于从所述知识图谱中选取初始节点以进行分层随机游走,记录游走到的节点序列以得到节点序列集;模式转换模块,用于将所述节点序列集中的各节点序列转化为模式,得到模式集;异常模式挖掘模块,用于根据所述模式集进行异常模式挖掘,得到异常结构。
[0021]第三方面,提供一种基于知识图谱的异常结构挖掘装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:如第一方面的方法。
[0022]第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被多核处理器执行时,使得所述多核处理器执行如第一方面的方法。
[0023]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本实施例中,。
[0024]应当理解,上述说明仅是本专利技术技术方案的概述,以便能够更清楚地了解本专利技术的技术手段,从而可依照说明书的内容予以实施。为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本专利技术的具体实施方式。
附图说明
[0025]通过阅读下文的示例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的异常结构挖掘方法,其特征在于,包括:构建知识图谱,所述知识图谱包括多个节点及基于节点关系确定的边;从所述知识图谱中选取初始节点以进行分层随机游走,记录游走到的节点序列以得到节点序列集;将所述节点序列集中的各节点序列转化为模式,得到模式集;根据所述模式集进行异常模式挖掘,得到异常结构。2.根据权利要求1所述的方法,其特征在于,所述构建知识图谱,还包括:确定节点构成实体、节点关系、节点属性、边属性;通过实体抽取、关系抽取和属性抽取构建所述知识图谱。3.根据权利要求1所述的方法,其特征在于,从所述知识图谱中选取初始节点,还包括:计算所述知识图谱中所有节点的出度out(j),根据所述节点的出度数进行分桶,其中分桶区间为k,分桶数为m;对每个所述分桶进行随机抽样,其中,从每个所述分桶内随机抽取n个节点以确定每个所述分桶内的抽样节点S
i
(v),得到初始节点集S(v)={S
i
(v),i=1,...,m},所述i为桶标识,v为抽样节点。4.根据权利要求3所述的方法,其特征在于,对每个所述分桶进行随机抽样,还包括:若分桶内节点数小于n,采用过采样复制节点的方式补足。5.根据权利要求1所述的方法,其特征在于,所述分层随机游走,还包括:根据从所述知识图谱中选取初始节点确定初始的节点集S(u);迭代执行以下步骤直至满足预设游走结束条件:将所述节点集S(u)中的各个节点u作为初始节点进行随机游走,且不访问已被访问过的路径,将游走得到的序列(u,v
i
)加入节点序列集Set(u),所述v
i
是节点u游走到的邻居节点,所述节点序列集Set(u)的初始状态为空集;将所述节点序列(u,v
i
)组合作为新的节点,以更新所述节点集S(u)。6.根据权利要求5所述的方法,其特征在于,所述预设游走结束条件包括:所述初始的节点集S(u)中的每个初始节点游走超过预设次数,和/或所述迭代达到预设轮次数。7.根据权利要求1所述的方法,其特征在于,将所述节点序列集中的各节点序列转化为模式,还包括:获取节点与节点属性之间的映射关系;遍历所述节点序列集,依次根据所述映射关系将其中各个节点序列转化为模式,所述模式为所述节点属性的序列,并记录每个模式的出现次数。8.根据权利要求1所述的方法,其特征在于,将所述节点序列集中的各节点序列转化为模式以得到模式集,还包括;获取所述节点序列集,创建模式集Mod(mod,c),所述模式集的初始状态为空集,其中mod指示模式,c指示模式出现次数;遍历所述节点序列集以迭代执行以下步骤,直至所述节点序列集成为空集:根据所述映射关系将当前遍历到的节点序列转换为对应的模式;判断所述模式是否存在于当前的所述模式集中,若不存在,将所述模式加入所...

【专利技术属性】
技术研发人员:陈滢杜星波高鹏飞郑建宾赵金涛李幸吕楠魏子朝
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1