一种基于复合相似度的金融关联账户识别方法和设备技术

技术编号:35599777 阅读:20 留言:0更新日期:2022-11-16 15:20
本发明专利技术涉及一种基于复合相似度的金融关联账户识别方法和设备,识别方法包括如下步骤:(1)典型案例爬取与特征提取;(2)指标体系设计;(3)账户基本信息指标和交易信息指标筛选;(4)市场复合信息指标构建;(5)基于模糊层次综合评价的疑似异常账户识别;(6)基于复合相似度的疑似异常账户聚类分析;(7)基于知识图谱的疑似关联账户可视化;设备包括一个或多个处理器、一个或多个存储器、一个或多个程序及多个数据收集装置。本发明专利技术对金融关联账户的识别准确度高且提供较完善的可视化功能,既能揭示金融市场中关联账户组的动态发展规律,又可为金融监管机构精准地识别出金融市场中的关联账户组,挖掘账户深层关联关系提供科学决策。策。策。

【技术实现步骤摘要】
一种基于复合相似度的金融关联账户识别方法和设备


[0001]本专利技术属于金融科技
,涉及一种基于复合相似度的金融关联账户识别方法和设备。

技术介绍

[0002]近些年,信息技术的快速发展给金融市场带来了发展与变革,但是由此也引发了诸多危机。在市场日趋复杂的情况下,金融监管变得越来越困难,监管部门有提升自身监察能力和监管手段的迫切需求。其中,关联账户筛查作为监管部门的重点工作,能否精准地识别出隐藏在市场中的关联账户组,挖掘账户深层关联关系,以及关联账户间隐蔽的违规交易、市场操纵行为,是监管及防范潜在市场风险的关键环节。
[0003]为预防金融风险,专利CN107527144A公开了一种金融领域关联交易的检测方法,该专利技术采用带符号的委托量作为投资者交易活动的特征变量,利用带符号委托量序列构建投资者交易的统一聚集的带符号委托量序列;计算两个投资者交易行为相似性,构建多个投资者相关系数矩阵;根据交易日的相关系数矩阵构建单日权重图并将多个单日权重图合并为一个综合权重图,综合权重图中的一个连通子图对应的投资者集合就是一个潜在的关联账户组。
[0004]目前已有关联账户识别方法主要是利用账户的交易行为数据,通过监督及无监督机器学习方法构建关联账户识别系统。主要存在的缺陷有以下两个方面:
[0005]1.现有关联账户识别方法大多未考虑市场舆情影响,但在某些典型案例中市场舆情对揭示关联账户异常交易起到了关键作用,如“叶飞案”的微博爆料信息等。
[0006]2.现有关联账户识别方法通常是将面板数据转换成截面数据进行建模,但是这种方法忽略了指标之间的时变性,可能导致分析结果不准确。

技术实现思路

[0007]本专利技术的目的是解决现有技术考虑数据不完全的局限性且没有考虑到指标之间时变性导致的计算相似度不准确,可能导致最终聚类结果不准确的问题,提供一种基于复合相似度的金融关联账户识别方法和设备。
[0008]为达到上述目的,本专利技术采用的技术方案如下:
[0009]一种基于复合相似度的金融关联账户识别方法,包括如下步骤:
[0010](1)典型案例爬取与特征提取;
[0011]所述典型案例是指中国证券监督管理委员会发布的涉嫌“账户组”的中国证监会行政处罚决定书中的典型案例;
[0012]所述典型案例中疑似关联账户的可识别、可衡量的特征指标的获取方式如下:
[0013]首先,利用网络爬虫技术获取涉及关联账户的典型案例;其次,将典型案例中“日内股价频繁震荡”、“通过对账户开户信息进行关联分析”等可识别的特征进行提取;最后,对提取的信息进行量化得到典型案例中疑似关联账户的可衡量的特征指标;
[0014](2)指标体系设计;
[0015]所述指标体系包括账户基本信息指标、账户交易信息指标和市场基本信息指标三类;
[0016]构成所述指标体系的指标是从典型案例中挖掘出的疑似关联账户的可识别、可衡量的特征指标;
[0017]从短期、中期和长期三种不同的时间周期将基础性、单元性的指标要素组合设计成为可识别、可衡量且能反映关联账户识别特征的多维度、全周期实时监控指标体系。具体指标体系如下:
[0018]a.账户基本信息指标
[0019]账户基本信息指标包括但不限于:开户时间、客户经理、工作地址、家庭地址、身份证号码、银行卡开卡时间、开卡银行、籍贯、电话号码、电话号码归属地、账户开户时间长度共11个账户基本信息指标。
[0020]b.账户交易信息指标
[0021]账户交易信息指标包括但不限于:交易MAC地址、交易IP地址、委托下单IP地址、委托下单地址、委托下单手机串号、委托日期、委托时间、委托方向、委托数量、委托价格、成交数量、成交价格、清算金额,发生清算后资金余额、期初余额、当前余额、可用余额、冻结余额、持仓股票和持仓数量共20个账户交易信息指标。
[0022]c.市场基本信息指标
[0023]市场基本信息指标包括但不限于:单位时间T周期内的开盘价、收盘价、最高价、最低价、成交量、报单量、撤单量以及市场舆情信息,其中T分别可取1分钟、5分钟、15分钟、30分钟、60分钟和120分钟的短期时间周期,1日、1周、1月、1季度和半年的中期时间周期以及1年、2年和3年的长期时间周期,共112个市场基本信息指标。
[0024](3)账户基本信息指标和账户交易信息指标筛选;
[0025]首先,利用相关系数法剔除账户基本信息指标和账户交易信息指标中具有高度相关关系的指标;其次,利用XGboost、随机森林和遗传算法分别对剔除后的账户基本信息指标和账户交易信息指标进行筛选,获得三个最优指标集合(具体地,利用XGboost对账户基本信息指标和账户交易信息指标进行筛选获得最优指标集合S1,利用随机森林对账户基本信息指标和账户交易信息指标进行筛选获得最优指标集合S2,利用遗传算法对账户基本信息指标和账户交易信息指标进行筛选获得最优指标集合S3);最后,取三个最优指标集合的并集作为筛选出的账户基本信息指标和账户交易信息指标,所筛选出的主要指标具有较强的代表性、规律性、普遍性和前瞻性;
[0026]所述具有高度相关关系是指皮尔逊相关系数大于阈值,阈值默认为0.8;
[0027]XGboost特征选择取决于特征对模型贡献的重要度,重要度则是特征用于树分割次数的总和。XGboost中树的每次分割都采取贪婪地方式选择特征,即选择当前信息增益最大的特征用于树的分割。采用XGboost建模后即可统计样本数据特征的重要度。首先,计算所有特征对模型贡献的重要度;其次,利用重要度从高到低逐一添加特征进行建模,并计算模型预测的准确率;最后,模型预测准确率最高的模型所对应的特征集合即为最优特征集合,维度即为XGboost特征选择的维度。
[0028]随机森林与遗传算法均类似,只是某些评价指标略有区别,均是现有技术;
[0029](4)市场复合信息指标构建;
[0030]基于步骤(2)中所述市场基本信息指标构建市场复合信息指标;市场复合信息指标由利用资金或持股优势大笔申报、连续申报、集中申报、大额申报、拉抬股价、打压股价、股价频繁波动、累计涨跌幅异常、股票集中度高、收盘前15分钟拉抬打压、频繁报撤单及涨跌幅限制价格大额申报等异常交易场景衍生而来,市场复合信息指标由人工构建且能反映上述异常交易场景。
[0031]具体指标涵义、刻画异常交易场景和阈值设置如下:
[0032]T周期内申报买入和卖出股票的笔数:用于刻画T周期内连续申报、频繁申报等,偏离历史T周期内申报买入和卖出股票笔数均值2倍标准差范围即视为存在异常;
[0033]T周期内申报买入和卖出股票的股数:用于刻画T周期内大笔申报等,偏离历史T周期内申报买入和卖出股票股数均值2倍标准差范围即视为存在异常;
[0034]T周期内申报买入和卖出股票的平均股价:用于刻画T周期内申报价格明显偏离该股行情的最近成交价、大额申报等,偏离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于复合相似度的金融关联账户识别方法,其特征在于包括如下步骤:(1)典型案例爬取与特征提取;所述典型案例是指中国证券监督管理委员会发布的涉嫌“账户组”的中国证监会行政处罚决定书中的典型案例;所述典型案例中疑似关联账户的可识别、可衡量的特征指标的获取方式如下:首先,利用网络爬虫技术获取涉及关联账户的典型案例;其次,将典型案例中可识别的特征进行提取;最后,对提取的信息进行量化得到典型案例中疑似关联账户的可衡量的特征指标;(2)指标体系设计;所述指标体系包括账户基本信息指标、账户交易信息指标和市场基本信息指标三类;构成所述指标体系的指标是从典型案例中挖掘出的疑似关联账户的可识别、可衡量的特征指标;从短期、中期和长期三种不同的时间周期将基础性、单元性的指标要素组合设计成为可识别、可衡量且能反映关联账户识别特征的多维度、全周期实时监控指标体系;(3)账户基本信息指标和账户交易信息指标筛选;首先,利用相关系数法剔除账户基本信息指标和账户交易信息指标中具有高度相关关系的指标;其次,利用XGboost、随机森林和遗传算法分别对剔除高度相关指标后的账户基本信息指标和账户交易信息指标进行筛选,获得三个最优指标集合;最后,取三个最优指标集合的并集作为筛选出的账户基本信息指标和账户交易信息指标;所述具有高度相关关系是指皮尔逊相关系数大于阈值,阈值默认为0.8;(4)市场复合信息指标构建;基于步骤(2)中所述市场基本信息指标构建市场复合信息指标,包括:T周期内申报买入和卖出股票的笔数;T周期内申报买入和卖出股票的股数;T周期内申报买入和卖出股票的平均股价;T周期内成交买入和卖出股票的笔数;T周期内成交买入和卖出股票的股数;T周期内成交买入和卖出股票的平均股价;T周期内股价上穿或下穿T周期内平均股价正负K%的次数,K默认为2;T周期内股价涨跌幅;T周期内股票集中度,即T周期内账户持有该股票前N名账户的持有量占总量的比重,N默认为100;T周期内股票曝光度,即该股票的舆情分析结果,正面为1,中性为0,负面为

1;T周期内涨幅或跌幅限制的价格申报买入和卖出股票的笔数;T周期内涨幅或跌幅限制的价格申报买入和卖出股票的股数;T周期内涨幅或跌幅限制的价格成交买入和卖出股票的笔数;T周期内涨幅或跌幅限制的价格成交买入和卖出股票的股数;T周期内股票报撤单比;T周期包括:短期时间周期T1,默认1分钟、5分钟、15分钟、30分钟、60分钟和120分钟;中
期时间周期T2,默认1日、1周、1月、1季度和半年;长期时间周期T3,默认1年、2年和3年;特殊时间周期T4,默认每日集合竞价和每日收盘前15分钟;(5)基于模糊层次综合评价的疑似异常账户识别;(5.1)根据步骤(4)中构建的市场复合信息指标判断是否存在异常股票,如存在,则进入步骤(5.2);否则,终止;(5.2)利用模糊层次综合评价模型,由评语集V、权重分配向量w和模糊综合评价矩阵R计算持有疑似异常股票的账户综合评价得分C,综合平均得分超过阈值的账户即为疑似异常账户;所述阈值默认为0.75;(6)基于复合相似度的疑似异常账户聚类分析;(6.1)获取步骤(5)中识别的疑似异常账户筛选后的账户基本信息指标和账户交易信息指标的数据,并对其进行Z

Score标准化预处理;(6.2)对于类别为面板数据的指标,计算不同疑似异常账户之间的希尔伯特相似度;(6.3)对于类别为截面数据的指标,计算不同疑似异常账户之间的欧氏距离;(6.4)利用步骤(5.2)中计算的权重分配向量w对步骤(6.2)中计算得到的希尔伯特相似度与步骤(6.3)中计算得到的欧氏距离进行加权平均,得到基于希尔伯特相似度和欧氏距离的复合相似度;(6.5)基于复合相似度,利用系统聚类方法对疑似异常账户进行聚类分析,得到疑似关联账户。2.根据权利要求1所述的一种基于复合相似度的金融关联账户识别方法,其特征在于,还包括:(7)基于知识图谱的疑似关联账户可视化。3.根据权利要求1所述的一种基于复合相似度的金融关联账户识别方法,其特征在于,步骤(5.2)具体包括如下步骤:(5.2.1)确定评价的对象集、因素集和评语集;对象集为P={P1,P2,...,P
k
},因素集为U={u1,u2,...,u
m
},评语集为V={v1,v2,...,v
n
};其中,对象集为待评价的账户,因素集为步骤(3)中筛选出的...

【专利技术属性】
技术研发人员:王国强袁欣施兴森
申请(专利权)人:上海金仕达软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1