基于知识图谱的无监督异常检测方法及装置制造方法及图纸

技术编号:30323613 阅读:73 留言:0更新日期:2021-10-09 23:52
本发明专利技术涉及风险监控技术领域,具体公开了基于知识图谱的无监督异常检测方法及装置,其中方法包括如下步骤:节点识别步骤:识别知识图谱中节点间的相对关系;异常标记步骤:设定异常阈值,基于箱线图分位距的原理和异常阈值对节点间不同的相对关系进行分类识别,确定异常节点,对异常节点进行标记;输出步骤:输出包含标记的异常节点。采用本发明专利技术的技术方案能够准确发现潜在风险。准确发现潜在风险。准确发现潜在风险。

【技术实现步骤摘要】
基于知识图谱的无监督异常检测方法及装置


[0001]本专利技术涉及风险监控
,特别涉及基于知识图谱的无监督异常检测方法及装置。

技术介绍

[0002]在当前的网络金融发展过程中,各类欺诈事件屡屡发生,并逐渐趋于组织化、科技化,使得此类欺诈风险一经发生,难以及时发现并制止,会造成较大的影响与损失。面对层出不穷的风险问题以及数据孤岛的难关,知识图谱的应用如雨后春笋般涌现,尤其在金融反欺诈领域,知识图谱将行业各类数据很好的关联起来,同时利用其图谱特质发现知识,可以帮助机构快、准、狠的挖掘推理出潜在的风险信息。
[0003]而当前利用知识图谱中进行的异常节点检测方法仍聚焦在专家经验和有监督算法。然而专家经验存在认知和数据应用范围的局限,不能充分发挥大数据的价值;另外,有监督算法又需要大量的贷后数据进行打标训练,但一是贷后数据标签需要大量的贷后数据积累,二是根据贷后数据打标具有滞后性。在无监督算法中,常规数据分布异常点检测常常使用基于正态分布的3sigma准则异常识别方法,但是实际业务产生的数据常常不符合正态分布假设,导致盖识别方法无法应用到金融反欺诈领域。
[0004]为此,需要一种能准确发现潜在风险的无监督异常检测方法及装置。

技术实现思路

[0005]本专利技术的目的之一是提供基于知识图谱的无监督异常检测方法,能够准确发现潜在风险。
[0006]为了解决上述技术问题,本申请提供如下技术方案:
[0007]基于知识图谱的无监督异常检测方法,包括如下步骤:
[0008]节点识别步骤:识别知识图谱中节点间的相对关系;
[0009]异常标记步骤:设定异常阈值,基于箱线图分位距的原理和异常阈值对节点间不同的相对关系进行分类识别,确定异常节点,对异常节点进行标记;
[0010]输出步骤:输出包含标记的异常节点。
[0011]基础方案原理及有益效果如下:
[0012]本方案中,通过识别知识图谱中节点间的相对关系,可以得到各个节点之间的相互关联的数据,例如可以得到节点与节点之间是1对1(1:1)、一对多(1:n)等相对关系。异常标记步骤中,引入箱线图分位距的原理便于反映各个节点之间相对关系分布的特征,再结合异常阈值,可以准确的筛选出异常节点。将包含标记的异常节点输出,便于后续推送相关反欺诈部门,后续可以实时为系统数据和客户进行打标跟踪或拒绝接入,降低欺诈风险发生率。
[0013]综上,本方案可以大规模的检测知识图谱数据,利用系统优势全量扫描发现异常业务节点,达到准确发现潜在风险的目的。
[0014]进一步,所述节点识别步骤中,对知识图谱中每个节点的一度关联数进行扫描,识别相对关系。
[0015]可以识别知识图谱中每个节点所关联的相邻的节点数量。
[0016]进一步,所述异常标记步骤中,计算一度关联数的分位距和一度关联数的分布频率,根据一度关联数的分位距是否等于0以及一度关联数的分布频率是否大于异常阈值两种情况确定异常节点,并进行标记。
[0017]进一步,所述标记包括极度异常、高度异常、中度异常和低度异常。
[0018]分类标记,便于后续针对不同的标记采取不同的处理措施。
[0019]进一步,所述异常标记步骤中,当一度关联数的分位距不等于0时,
[0020]满足如下公式标记为中度异常:
[0021]value≥value_p1+6IQR或value≤value_p2

6IQR;
[0022]或者value≤value_p2

6IQR;
[0023]满足如下公式标记为低度异常:
[0024]value_p1+6IQR≥value≥value_p1+3IQR或value_p2

6IQR≤value≤value_p2

3IQR;
[0025]其中,IQR为分位距,value为一度关联数,value_p1为p1分位数对应的分位值,value_p2为p2分位数对应的分位值。
[0026]进一步,所述异常标记步骤中,当一度关联数的分位距等于0时,
[0027]如果max_freq<p0,
[0028]满足如下条件标记为高度异常:
[0029]value>value_p3,
[0030]满足如下条件标记为中度异常:
[0031]value_p3≥value>value_p4,
[0032]其中,max_freq为一度关联数的分布频率,p0为异常阈值,value_p3为p3分位数对应的分位值,value_p4为p4分位数对应的分位值。
[0033]进一步,所述异常标记步骤中,当一度关联数的分位距等于0时,
[0034]如果max_freq≥p0,
[0035]满足如下条件标记为极度异常:
[0036]value>value_p3,
[0037]满足如下条件标记为高度异常:
[0038]value_p3≥value>value_p4。
[0039]进一步,所述分位距的计算公式为:
[0040]IQR=value_p1

value_p2。
[0041]进一步,所述异常标记步骤中,p1为95%,p2为25%,p3为99.95%

99.9999%,p4为99.5%,p0为99%。
[0042]本方案中实际业务产生的数据是分布频数,是右偏的,将右边的分位值定为95%可以限制更大范围的数据一致性,从而找出这之外的异常。进而通过箱线图从知识图谱中确定节点间的相对关系,例如1:1,1:N等。
[0043]在一度关联数数值的分布中,IQR=0,指中间95%分位点值

25%分位点值为0,即
区间内70%的数据都相等,分位距IQR才会等于0。当IQR=0,然后最大频率大于99%,也就是中间70%的数据都相等,然后整体某一个分布频率大于99%,也就是某一个一度关联数的数值占比在99%以上。例如一个人只有一个手机号的数据分布频率在99%以上,如果出现了某一个人有2个手机号,就可能是异常情况。如果某一度关联数比99.99%分位数对应的分位值更大,可以认为是极度异常。
[0044]本专利技术的目的之二是提供基于知识图谱的无监督异常检测装置,包括处理器、存储器以及存储在存储器上的计算机程序,所述处理器用于执行计算机程序,以实现上述基于知识图谱的无监督异常检测方法的步骤。
附图说明
[0045]图1为实施例一基于知识图谱的无监督异常检测方法的流程图;
[0046]图2为实施例一基于知识图谱的无监督异常检测方法中确定异常节点的示意图;
[0047]图3为email异常客户示意图。
具体实施方式
[0048]下面通过具体实施方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的无监督异常检测方法,其特征在于,包括如下步骤:节点识别步骤:识别知识图谱中节点间的相对关系;异常标记步骤:设定异常阈值,基于箱线图分位距的原理和异常阈值对节点间不同的相对关系进行分类识别,确定异常节点,对异常节点进行标记;输出步骤:输出包含标记的异常节点。2.根据权利要求1所述的基于知识图谱的无监督异常检测方法,其特征在于:所述节点识别步骤中,对知识图谱中每个节点的一度关联数进行扫描,识别相对关系。3.根据权利要求2所述的基于知识图谱的无监督异常检测方法,其特征在于:所述异常标记步骤中,计算一度关联数的分位距和一度关联数的分布频率,根据一度关联数的分位距是否等于0以及一度关联数的分布频率是否大于异常阈值两种情况确定异常节点,并进行标记。4.根据权利要求3所述的基于知识图谱的无监督异常检测方法,其特征在于:所述标记包括极度异常、高度异常、中度异常和低度异常。5.根据权利要求4所述的基于知识图谱的无监督异常检测方法,其特征在于:所述异常标记步骤中,当一度关联数的分位距不等于0时,满足如下公式标记为中度异常:value≥value_p1+6IQR或value≤value_p2

6IQR;或者value≤value_p2

6IQR;满足如下公式标记为低度异常:value_p1+6IQR≥value≥value_p1+3IQR或value_p2

6IQR≤value≤value_p2

3IQR;其中,IQR为分位距,value为一度关联数,value_p1为p1分位数对应的分位值,val...

【专利技术属性】
技术研发人员:白娟
申请(专利权)人:重庆富民银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1