基于多维数据挖掘的用户信用确定方法技术

技术编号:22330813 阅读:42 留言:0更新日期:2019-10-19 12:24
本发明专利技术提供了一种基于多维数据挖掘的用户信用确定方法,该方法包括:记录已确认的风险用户与当前待分析用户的特征样本二元组训练一个深度卷积网络,通过学习一组分层非线性变换将特征样本二元组投影到新建特征空间中,利用相似度算法分别得到当前待分析用户与风险用户的行为模式相似度;如果当前待分析用户与某个风险用户的行为模式相似度大于预设阈值,则将当前待分析用户识别为失信用户。本发明专利技术提出了一种基于多维数据挖掘的用户信用确定方法,减少了待分析用户行为特征的数量,消除了特征间的冗余,采用的分类模型更加高效实用,有效地提高信用评估的速度以及评估的准确性,更好地适应了海量数据的流式计算场景。

【技术实现步骤摘要】
基于多维数据挖掘的用户信用确定方法
本专利技术涉及网络安全,特别涉及一种基于多维数据挖掘的用户信用确定方法。
技术介绍
互联网通信及大数据技术的发展为确定用户信用等级提供了坚实的数据和技术基础。根据研究发现,用户的互联网行为是人的行为在互联网载体上的实现形式,其本质与社会行为一致,且资产、经营状况的变化会通过其网络行为体现出来。而网络行为数据所表现出的社交关系更被认为与用户征信具有强相关性,因此用户信用不仅存在于财务报表、抵押业务信息之中,而且还可体现在相关的用户行为数据、社会关系等非结构化数据中。这些数据会持续不断产生并输入数据分析和挖掘引擎。与传统数据相比,流式数据呈现出实时性、易失性、突发性、无序性和无限性等特征。由于互联网业务对系统响应时间的高要求,这些数据往往需要实时的分析和计算。因此在互联网海量的流式数据环境下,如何提高用户信用的计算准确率和实时性,成为了大数据分析领域中急需解决的主要问题。在网络规模呈几何级增长的今天,被检测的数据量极其庞大,传统的网络分析监测工具和平台很难应付;并且存储和处理大量的社交网络数据会耗费大量的资源和时间。但随着用户行为和社交关系的日趋复杂化,现有的方法已无法实现风险用户行为特征的识别以及对失信用户进行的控制管理,并导致计算时间滞后。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于多维数据挖掘的用户信用确定方法,包括:记录已确认的风险用户与当前待分析用户的特征样本二元组(xf,xc),其中xf、xc分别表示风险用户和待分析用户的征信特征向量;训练一个深度卷积网络,通过学习一组分层非线性变换将特征样本二元组投影到新建特征空间中,在该空间中正样本对多于预设阈值,负样本对少于该预设阈值;设置深度卷积网络共M层,第m层有p(m)个神经元,其中m=1,2,3,…,M,对给定的用户行为特征向量x的第m层输出为:hm(x)=tanh(W(m)h(m-1)+b(m))x;式中,W(m)为第m层的权重参数,b(m)为第m层的偏置量,经过上述M层非线性变换得到F(xf),F(xc):F(xf)=h(M)(xf),F(xc)=h(M)(xc),计算风险用户与当前待分析用户在新特征空间中的距离为:d2fc(xf,xc)=||F(xf)-F(xc)||2则用户与风险用户的行为模式相似度度量应满足:若d2fc(xf,xc)<τ-1,则xf和xc有行为模式相似度;若d2fc(xf,xc)>τ+1,则xf和xc无行为模式相似度;式中τ表示设定的风险距离阈值;然后设置优化目标函数为:其中β为调节算子,采用随机梯度下降算法,根据上述公式得到权重参数W、偏置量b;经过深度学习后,得到新的特征表示二元组(x'f,x'c),利用相似度算法分别得到当前待分析用户与风险用户的行为模式相似度Sfc(x'f,x'c)即最终的用户相似度估计值:其中x'fi,x'ci分别为特征向量x'f,x'c的第i个分量,d为特征向量的维度;如果当前待分析用户与某个风险用户的行为模式相似度大于预设阈值,则将当前待分析用户识别为失信用户。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种基于多维数据挖掘的用户信用确定方法,减少了待分析用户行为特征的数量,消除了特征间的冗余,采用的分类模型更加高效实用,有效地提高信用评估的速度以及信用评估的准确性,更好地适应了海量数据的流式计算场景。附图说明图1是根据本专利技术实施例的基于多维数据挖掘的用户信用确定方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种基于多维数据挖掘的用户信用确定方法。图1是根据本专利技术实施例的基于多维数据挖掘的用户信用确定方法流程图。本专利技术通过监控社交网络用户行为记录来实现对社交网络行为的检测,产生行为风险预警信息。用户行为记录包括社交网络会话信息。可选地,还包括用户交易记录信息。对于会话信息,在集群节点的出口进行端口镜像,将会话文本导入用于安全检测的主机上,捕获流式数据原始报文,解码报文并在其转发到检测引擎之前进行预处理。预处理包括会话分类、碎片重组和会话还原。预处理后通过匹配存储在数据库中的检测规则和预定义的风险特征代码,检查流式数据报文头部以及载荷,对风险行为进行识别与拦截。其中,所述社交网络会话记录中的文本内容包括但不限于,即时通信聊天记录、自媒体发布信息、微博或论坛留言信息、新闻网站的评论记录、电商网站评价信息等。上述社交网络行为记录仅为举例,实际情况下具体社交网络行为也可以示例不同,此处不作具体限定。在社交网络行为记录分析中,采用规则匹配和基于用户的行为模型进行风险行为的特征提取。首先从服务器中获取社交网络行为记录,然后根据数据库中的判别规则对日志文件进行模式匹配,在进行信用评估之前消除正常行为产生的冗余记录,从而识别和提取记录中存在的违约行为。用户之间一般通过网络关系实现信息跳转。这些跳转路径可以表示某个用户访问社区网站的操作。通过扫描社交网络图结构,建立当前待分析用户与关联用户的二元组,表示两者之间的跳转关系。然后通过分析服务器日志,建立用户在实际访问页面时的路径和行为。根据以上提供的行为信息和预警信息,通过使用风险性统计、脆弱性分析、可用性分析进行统计。分别读取社交网络用户行为的流式数据训练集和测试集,将经过规范化预处理的训练集数据和测试集数据使用主成分分析进行降维处理,去除冗余数据,进行数据维度约简,形成征信数据特征集。征信数据特征可从以下流式数据集合中选择一项或多项:历史信用特征,例如用户通过金融网站的支付历史和还款历史记录,购物网站的购买、退换、取消订单记录;社会关系特征,即用户在社交网络中建立关联的其他用户的信用数据,还包括用户与其他关联用户的交往密集度、深度和广度,例如关系维持时间,会话频率等;行为偏好特征,根据用户访问网页或应用的类型、时段、频率和社交网络评价信息,统计用户行为规律;身份属性特征,即通过用户网络行为,预测个人身份相关属性,包括年龄、职业、婚姻、教育程度,并验证与用户输入的基本信息的一致性。上述特征信息仅为举例,实际情况下的样本所包含的特征信息的数量,可以多于或少于所示信息的数量,具体特征信息也可以示例不同,此处不作具体限定。从征信数据特征集中筛选多维数据特征,并将训练集的数据特征和类型载入DBN信念网络分类器,经过DBN信念网络进行训练,然后载入测试集的特征对其类型进行预测,得到测试集的数据分类预测结果。其中,所述DBN信念网络分类器多个隐含层,并且隐含层之间采用不同的激励函数来计算。训练数据经过DBN信念网络分类器训练之后得到结果,然后载入测试数据,根据训练有效结果对测试数据集类型进行预测。得到预测结果,即完成基于机器学习的信用等级的检测。最后,载入测试集类型标记与DBN信念网络分类器预测值进行对比和评估。在对选择出的征信数据特征进行分类时本文档来自技高网...

【技术保护点】
1.一种基于多维数据挖掘的用户信用确定方法,其特征在于,包括:记录已确认的风险用户与当前待分析用户的特征样本二元组(xf,xc),其中xf、xc分别表示风险用户和待分析用户的征信特征向量;训练一个深度卷积网络,通过学习一组分层非线性变换将特征样本二元组投影到新建特征空间中,在该空间中正样本对多于预设阈值,负样本对少于该预设阈值;设置深度卷积网络共M层,第m层有p(m)个神经元,其中m=1,2,3,…,M,对给定的用户行为特征向量x的第m层输出为:h

【技术特征摘要】
1.一种基于多维数据挖掘的用户信用确定方法,其特征在于,包括:记录已确认的风险用户与当前待分析用户的特征样本二元组(xf,xc),其中xf、xc分别表示风险用户和待分析用户的征信特征向量;训练一个深度卷积网络,通过学习一组分层非线性变换将特征样本二元组投影到新建特征空间中,在该空间中正样本对多于预设阈值,负样本对少于该预设阈值;设置深度卷积网络共M层,第m层有p(m)个神经元,其中m=1,2,3,…,M,对给定的用户行为特征向量x的第m层输出为:hm(x)=tanh(W(m)h(m-1)+b(m))x;式中,W(m)为第m层的权重参数,b(m)为第m层的偏置量,经过上述M层非线性变换得到F(xf),F(xc):F(xf)=h(M)(xf),F(xc)=h(M)(xc),计算风险用户与当前待分析用户在新特征空间中的距离...

【专利技术属性】
技术研发人员:马涛
申请(专利权)人:成都威嘉软件有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1