一种基于相似度分析理论的电力客户异常行为预警方法技术

技术编号:20969012 阅读:54 留言:0更新日期:2019-04-29 17:18
本发明专利技术公开了一种基于相似度分析理论的电力客户异常行为预警方法。该方法能够从多方面对用户未来的异常情况进行预警分析,并通过用户行为序列相似度描述用户间的关联,同时考虑用户属性的变化,对异常行为进行发现和安全预警。预警流程包括:S1.用户行为序列模式描述;S1‑1.基于时间的行为序列;S1‑2.最大公共行为子序列;S1‑3.行为序列相似度矩阵;S1‑4.用户行为相关系数;S1‑5.用户基本属性;S2.基于行为序列的异常分析;S2‑1.数据预处理;S2‑2.行为序列模式建立;S2‑3.行为异常分析及预警。

An Early Warning Method for Abnormal Behavior of Electric Power Customers Based on Similarity Analysis Theory

The invention discloses an early warning method for abnormal behavior of electric power customers based on similarity analysis theory. This method can provide early warning and analysis of users'future anomalies from many aspects, and describe the association between users through the similarity of user behavior sequence. At the same time, considering the changes of user attributes, it can detect and warn anomalous behaviors safely. Early warning process includes: S1. Description of user behavior sequence pattern; S1 1. Time-based behavior sequence; S1 2. Maximum common behavior subsequence; S1 3. Similarity matrix of behavior sequence; S1 4. Relevance coefficient of user behavior; S1 5. User basic attributes; S2. Anomaly analysis based on behavior sequence; S2 1. Data preprocessing; S2 2. Establishment of behavior sequence pattern; S2 3. Behavior anomaly Analysis and early warning.

【技术实现步骤摘要】
一种基于相似度分析理论的电力客户异常行为预警方法
本专利技术属于信用风险预警及防范领域,尤其是涉及一种基于相似度分析理论的电力客户异常行为预警方法。
技术介绍
随着电力工业改革进程的深入,电力公司面临的电力客户异常行为等问题变得愈加严峻。用户作为市场的重要主体,对其进行行为分析是掌握市场安全状态的重要手段,且在异常检测中对于潜在威胁挖掘和预警具有重要的意义.为了保证电网公司资金的正常运转及效益,需要及时对用户的拖欠费等异常情况进行预警分析,帮助电力企业把可能发生的危险状况做到事先预计,从而降低用户为电力企业带来的信用风险,这对电力企业和社会的稳步发展都十分必要。目前,预警建模方面缺乏对研究对象的预测过程,加上电力客户的行为原因十分复杂,仅从用户单次行为模式来预估其未来的行为可能性是不完备的,因此需要通过用户行为序列相似度描述用户间的关联,同时考虑用户属性的变化,对异常行为进行发现和安全预警。因此建立一种基于相似度分析理论的电力客户异常行为预警模型十分必要。此外,用户异常行为管理工作较为复杂,需要提出科学有效的方法来简化其复杂性。
技术实现思路
本专利技术就是针对上述问题,提出了一种基于相似度分析理论的电力客户异常行为预警方法。为实现上述目的,本专利技术采用如下技术方案:S1.用户行为序列模式描述该步骤包括如下子步骤:S1-1.基于时间的行为序列S1-2.最大公共行为子序列S1-3.行为序列相似度矩阵S1-4.用户行为相关系数S1-5.用户基本属性S2.基于行为序列的异常分析该步骤包括如下子步骤:S2-1.数据预处理S2-2.行为序列模式建立S2-3.行为异常分析及预警本专利技术的有益效果是,按照时间提取用户行为序列,并引入不同用户间的行为序列相似度和相关系数的概念,通过用户行为序列相似度描述用户间的关联,同时考虑用户属性的变化,对异常行为进行发现和安全预警。附图说明图1为基于相似度分析的行为异常预警系统结构图。具体实施方式下面参照附图1来说明本专利技术的实施例。本专利技术的一种基于相似度分析理论的电力客户异常行为预警方法的具体步骤如下:S1.用户行为序列模式描述该步骤包括如下子步骤:S1-1.基于时间的行为序列假设有两个用户分别访问目标主机A,B,C,D,在一定时间段内,用户1先后访问目标主机A,B,D,C,用户2先后访问目标主机B,A,D。t11表示用户1发生第1次访问行为的时间,即用户1访问主机A的时间,t12表示用户1发生第2次访问行为的时间,t21表示用户2第1次访问行为的时间,以此类推,形成该分析场景下完整的用户访问行为的时间序列。基于用户访问行为时间序列,将用户i行为序列表示为STi=(Tti1,Tti2,Tti3,...,Ttin),其中,n表示用户根据时间先后发生访问行为的次序,Ttin表示用户在tin时间发生的具体的访问行为。本方法采用基于时间的用户行为访问序列描述单个用户的用户行为,作为异常检测和预警的输入。S1-2.最大公共行为子序列S1-2-1.子序列:若给定序列X=(x1,x2,x3,...,xn),则序列Z=(z1,z2,z3,...,zn)为X的子序列的规则为存在一个严格递减的下标序列(i1,i2,i3,...,ik),使对于所有的j=1,2,3…,k有zj=xi。S1-2-2.最大公共序列:给定两个序列X和Y,当序列Z既是X的子序列又是Y的子序列,则Z是序列X和Y的公共子序列,其中Z最长的序列称为X和Y的最大公共子序列。用c[i][j]表示用户x和用户y的最大公共子序列,STx=(Ttx1,Ttx2,Ttx3,...,Ttxn)和STy=(Tty1,Tty2,Tty3,...,Ttym),则有下列公式:由此求得两个用户之间的最大公共行为子序列。S1-3.行为序列相似度矩阵根据用户行为最大公共子序列,可计算出不同用户之间的行为序列相似度,表示不同用户间的行为相似性。假定用户序列A及用户序列B,len()为求序列的长度,最大公用子序列为C,则使用CommonJaccard算法计算用户A和用户B的相似度α的公式为:S1-4.用户行为相关系数通过分析一段时间内(前n个时间窗)行为序列相似度的变化,可以得到该时间段内,访问行为最相近的用户组合或用户类。平均相似度αavg越大,相似度变化越小,则这两个用户关系越相近.假设相似度方差为αx,则两个用户的行为相关系数为:两个用户之间相关系数RC越大,则这两个用户的行为关系越相近。有了相似度α和相关系数RC,就能够更精确的描述用户之间行为相似程度,反应用户之间的关系,从而实现异常行为分析。例如,在完成前n个时间窗行为序列相似度训练后,可得两个用户间的相关系数平均值RCavg和相关系数方差RCx,以RCavg±RCx作为后续检测的正常结果参考上下限,若用户间相关系数超出参考上下限,则判定出现异常的用户行为。S1-5.用户基本属性本方法采用六元组描述电力内网用户基本属性,User={name,ip,department,post,role,latestupdatetime},其中,name表示姓名,ip表示用户的绑定终端的ip地址,department表示用户当前所在部门,post表示用户当前职位,role表示用户的角色分工,latestupdatetime表示基本属性最近更新时间。用户基本属性是对通过行为相似度分析发现的异常进行关联判断最终生成预警的关键要素。S2.基于行为序列的异常分析该步骤包括如下子步骤:S2-1.数据预处理原始数据来源于网络流报文,数据预处理的目的是为了减少所捕获网络流数据中的无效数据,包括剔除原始数据中的冗余信息、错误信息及与分析不相关的用户行为数据,如由于机器故障、人工疏忽等导致记录缺失和输入错误等。同时,针对网络拓扑信息未知的前提,在预处理中需对网络流中出现的1P所关联的用户进行识别和定位。S2-1-1.对原始网络数据进行协议解析,转化成可识别的键值对格式数据。S2-1-2.将网络数据出现的冗余、错误信息,及属性缺失的数据删除;删除规则包括:(1)网络层报文协议不为TCP,作为冗余数据删除;(2)TCP报文网络层数据中源、目的IP和源、目的端口,开始时间,应用层数据中业务类型缺失的,作为属性缺失数据删除。S2-1-3.将网络数据中多余的属性进行删减.保留ID(序号)、STARTTIME(开始时间)、ENDTIME(结束时间)、SRCIP(源IP),DSTIP(目的IP),实现数据降维,减少计算复杂度、提高计算效率、形成分析数据集。S2-1-4.对网络数据中出现的所有的IP地址进行统计、按照连接数生成IP连接分布图、标记主机用户类型与服务器类型。S2-1-5.在主机用户类型中筛选出连接数很少的主机,由于连接数未达到一定数量,无法清晰获得其和其他主机的相似关系,所以删除此部分的主机,最后得到主机用户类型的主机集合U。S2-2.行为序列模式建立基于数据预处理后获得数据,基于时间序列,提取每个用户的行为序列.序列模式挖掘步骤如下:S2-2-1.根据用户行为序列的定义,采用字典的方式对用户主机ip集合进行编号,通过遍历主机ip集合奖励用户主机ip字典。S2-2-2.针对预处理后的分析数据集,通过每条记录中的srcip对数据发送的路径进行本文档来自技高网...

【技术保护点】
1.一种基于相似度分析理论的电力客户异常行为预警方法,其特征在于包括:S1.用户行为序列模式描述S2.基于行为序列的异常分析。

【技术特征摘要】
1.一种基于相似度分析理论的电力客户异常行为预警方法,其特征在于包括:S1.用户行为序列模式描述S2.基于行为序列的异常分析。2.根据权利要求1所述的方法,其特征在于,所述步骤1中,从用户多次行为模式来预估其未来的行为可能性,通过用户行为序列相似度描述用户间的关联;(1)基于时间的行为序列基于用户访问行为时间序列,将用户i行为序列表示为STi=(Tti1,Tti2,Tti3,...,Ttin),其中,n表示用户根据时间先后发生访问行为的次序,Ttin表示用户在tin时间发生的具体的访问行为。本方法采用基于时间的用户行为访问序列描述单个用户的用户行为,作为异常检测和预警的输入;(2)最大公共行为子序列1)子序列:若给定序列X=(x1,x2,x3,...,xn),则序列Z=(z1,z2,z3,...,zn)为X的子序列的规则为存在一个严格递减的下标序列(i1,i2,i3,...,ik),使对于所有的j=1,2,3…,k有zj=xi;2)最大公共序列:给定两个序列X和Y,当序列Z既是X的子序列又是Y的子序列,则Z是序列X和Y的公共子序列,其中Z最长的序列称为X和Y的最大公共子序列;用c[i][j]表示用户x和用户y的最大公共子序列,STx=(Ttx1,Ttx2,Ttx3,...,Ttxn)和STy=(Tty1,Tty2,Tty3,...,Ttym),则有下列公式:由此求得两个用户之间的最大公共行为子序列;(3)行为序列相似度矩阵根据用户行为最大公共子序列,可计算出不同用户之间的行为序列相似度,表示不同用户间的行为相似性;假定用户序列A及用户序列B,len()为求序列的长度,最大公用子序列为C,则使用CommonJaccard算法计算用户A和用户B的相似度α的公式为:(4)用户行为相关系数通过分析一段时间内(前n个时间窗)行为序列相似度的变化,可以得到该时间段内,访问行为最相近的用户组合或用户类;平均相似度αavg越大,相似度变化越小,则这两个用户关系越相近.假设相似度方差为αx,则两个用户的行为相关系数为:两个用户之间相关系数RC越大,则这两个用户的行为关系越相近;有了相似度α和相关系数RC,就能够更精确的描述用户之间行为相似程度,反应用户之间的关系,从而实现异常行为分析;(5)用户基本属性用户基本属性是对通过行为相似度分析发现的异常进行关联判断最终生成预警的关键要素。3.根据权利要求1所述的方法,所述步骤2中,其特征在于,基于行为序列的异常分析的流程为:(1)数据预处理原始数据来源于网络流报文,数据预处理的目的是为了减少所捕获网络流数据中的无效数据,包括剔除原始数据中的冗余信息、错误信息及与分析不相关的用户行为数据,如由于机器故障、人工疏忽等导致记录缺失和输入错误等;同时,针对网络拓扑信息未知的前...

【专利技术属性】
技术研发人员:杨建华白顺明肖达强刘定宜牛寅生姜曼
申请(专利权)人:国家电网公司华中分部
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1