一种配资人资金账户识别及资金交易关系网络分析方法技术

技术编号:33145121 阅读:46 留言:0更新日期:2022-04-22 13:56
本发明专利技术提供配资人资金账户识别及资金交易关系网络分析方法,涉及证券犯罪嫌疑线索研判领域。该配资人资金账户识别及分析方法,包括以下步骤:S1.资金交易数据采集并标记;S2.资金数据清洗、补全、去重;S3.配资人资金特征选取;S4.有监督学习,确定最优分类模型;S5.配资人资金账户识别预测,并输出结果;S6.搭建资金关联模型,分析配资人资金交易网络关系;S7.将S5和S6过程输出结果进行智能比对分析,输出最终结果。配资人资金账户识别的判别过程:1)根据场景经验选取合适的数据特征变量;2)对选取的数据特征进行逻辑回归算法拟合;3)将预测的用户数据根据拟合的参数计算出分类的结果是真或是假。是真或是假。是真或是假。

【技术实现步骤摘要】
一种配资人资金账户识别及资金交易关系网络分析方法


[0001]本专利技术涉及证券犯罪嫌疑线索研判领域,具体为配资人资金账户识别及资金交易关系网络分析 方法。

技术介绍

[0002]传统的证券犯罪嫌疑资金数据分析主要采用单机版分析工具和excel,主要分为四步, 首先利用Excel计算各个资金账户交易次数、金额、时间等情况,然后将资金账户中交易 情况严重偏离平均水平的资金账户挑选出来,再通过人工对每个资金账户进行逐一分析判 断是配资人资金账户的可能性,最后利用人工对这些可疑的配资人资金账户逐层分析,查 找可疑资金网络关系。这样的识别及分析方式存在五个缺点:一是筛选标准较简单,资金 特征维度单一,特征间相互隔离,缺少很好的整合方式,二是具有主观性,对配资人资金 账户的识别完全依靠人工对每个资金账户进行逐一分析,没有量化标准,准确率低,推广 难度高,三是对资源投入要求高,由于第一步统计特征单一,没有很好的整合方式,对配 置人资金账户缺乏具体量化标准,因此大量的筛查识别分析工作遗留到了人工调查的阶 段,需要大量人力、物力、财力的投入,四是近几年大量涌向本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种配资人资金账户识别及分析方法,其特征是,包括以下步骤:S1.资金交易数据采集并标记,资金交易数据来源多样,主要来源为反洗钱数据、所有银行数据、银联数据等,并通过前端采集工具采集并存入大数据平台,同时对采集的数据进行标记,其中标记包括配资人资金交易、非配资人交易;S2.资金数据清洗、补全、去重,整个数据清洗原则包括全字段、全账单、全流程,按照“先补全

再去重

可恢复

即反馈

再优化”流程,利用机器实现自动补全、去重、清洗,建立人工干预机制,支持纠错反馈、数据恢复等功能,全面清洗数据;S3.配资人资金特征选取,特征包括资金交易总金额,阈值大于1000万,资金交易总次数,阈值大于25,资金交易对手数量,阈值大于30,进出金额比例,阈值达到0.6,月交易总金额平均值,阈值大于600万等;S4采用有监督机器学习中的逻辑回归算法,对账户配资的判断方法,流程如下,a).交易数据采集并标记;b).数据清洗;c).特征选取;d).划分训练集和测试集;e).算法选择;f).模型训练;g).模型验证。2.根据权利要求1所述的分析方法,其特征是,S4详细流程如下:a)交易数据采集并标记;对配资账户正常的账户集T1和配资账户非正常的账户集T0,并保持两个数据集的比列差不多保持在1∶1,便于提高算法正确率;将T0和T1数据集融合在一个数据集T,通过内网将数据生成一个xls文件,便于以后调用;b)数据清洗;选取文件中的特定列名,并进行数据预处理,对未标明的用户账户的数据进行删除,对重复数据进行删除;对每列的空置进行对应列的处理,例如交易方式,将空置装换成一个字符串,对于金额装换成数字类型的数据;将金额数值中的负值转换成正数,便于以后特征列的计算;对很多不是真正用户的用户名称也删除,例如用户名是0,对于该种数据要删除;c)特征选取;对xls文件中的列名进行筛选,有部分没有特点的数据进行删除,保留相对可以区分类别的特征列,例如金额,交易次数;对选取的列名进行整合,分别计算金额的均值,最大值和最小值,余额数据亦是如此;对用户的MAC地址进行数据统计,记录使用的次数,作为一个特征集;对借贷标志选取,统计用户分别对







的次数,选取相对较多次数状态进行填充借贷状态;最后对离散型数据进行onehot转换成多种特征列;d)划分训练集和测试集;对样本集中的数据,按照训练集和测试集3∶1的状态选取数据,进行算法训练;e)算法选择;机器学习中数据进行分类的算法很多(逻辑回归、朴素贝叶斯),本次选取的算法是使用机器学习中的逻辑回归算法;对于逻辑回归(分类算法):分类器的输入是(x1,x2,

,xn),x1,x2,

,xn分别表示为每一个特征的向量;逻辑回归函数:其中其中:阈值选取0

1中间0.5,当预测函数结果大于0.5,则预测为正,反之预测为负;
逻辑回归二分类,求解损失值,使得损失值达到最小,一直不断更新θ,并最终获得预测函数;似然函数:对数函数:其中P(y=1|x;θ)=...

【专利技术属性】
技术研发人员:胡芃王冲张林张犇
申请(专利权)人:南京维数软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1