流式大数据安全处理方法技术

技术编号:22308878 阅读:34 留言:0更新日期:2019-10-16 08:57
本发明专利技术提供了一种流式大数据安全处理方法,该方法包括:基于社交网络拓扑,计算用户节点的局部向心度特征;计算每个用户每次发布的会话内容之间的相似度,通过设置风险判别阈值,确定局部向心度低于预设阈值并且会话内容相似度高于预设阈值的用户节点,将其识别为失信用户。本发明专利技术提出了一种流式大数据安全处理方法,减少了待分析用户行为特征的数量,消除了特征间的冗余,采用的分类模型更加高效实用,有效地提高信用评估的速度以及评估的准确性,更好地适应了海量数据的流式计算场景。

Security processing method of streaming big data

【技术实现步骤摘要】
流式大数据安全处理方法
本专利技术涉及网络安全,特别涉及一种流式大数据安全处理方法。
技术介绍
互联网通信及大数据技术的发展为确定用户信用等级提供了坚实的数据和技术基础。根据研究发现,用户的互联网行为是人的行为在互联网载体上的实现形式,其本质与社会行为一致,且资产、经营状况的变化会通过其网络行为体现出来。而网络行为数据所表现出的社交关系更被认为与用户征信具有强相关性,因此用户信用不仅存在于财务报表、抵押业务信息之中,而且还可体现在相关的用户行为数据、社会关系等非结构化数据中。这些数据会持续不断产生并输入数据分析和挖掘引擎。与传统数据相比,流式数据呈现出实时性、易失性、突发性、无序性和无限性等特征。由于互联网业务对系统响应时间的高要求,这些数据往往需要实时的分析和计算。因此在互联网海量的流式数据环境下,如何提高用户信用的计算准确率和实时性,成为了大数据分析领域中急需解决的主要问题。在网络规模呈几何级增长的今天,被检测的数据量极其庞大,传统的网络分析监测工具和平台很难应付;并且存储和处理大量的社交网络数据会耗费大量的资源和时间。但随着用户行为和社交关系的日趋复杂化,现有的方法已无法实现风险用户行为特征的识别以及对失信用户进行的控制管理,并导致计算时间滞后。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种流式大数据安全处理方法,包括:基于社交网络拓扑,计算用户节点的局部向心度特征;所述社交关系网络拓扑的节点表示用户,边表示用户之间的社交关系;所述节点的局部向心度表示从网络图移除该节点后,网络的关联能量下降的程度;其中社交网络图G的关联能量被定义为:EL(G)=∑θ2θ表示图G的基尔霍夫矩阵的特征值;所述图G的基尔霍夫矩阵为L(G)=D(G)-A(G);A(G)是图形G的邻接矩阵,D(G)是顶点出度的对角矩阵。对于有n个节点,出度分别为d1,d2,…,dn的拓扑图G,其关联能量为在社交关系网络中,用节点表示用户,边表示社交关系。从节点Vi指向节点Vj的边a=(i,j)表示用户i与j存在至少一个会话。。将顶点v从图形G中移除之后的图记为H,则顶点v的局部向心度为:Cv=EL(G)-EL(H)计算每个用户的局部向心度,并与预先选择的向心度阈值相比较;然后将流式数据中的会话文本内容分解为词组,然后使用词袋分析的方法计算这些词组的语义距离;使用封闭的词袋特征集合用来计算会话内容相似度;每个特征集合包含一个列表,列表中包含相似语义的词语;通过检查这些词语的相似度,得到整个内容的相似度,进而统计每个用户每次发布的会话内容之间的相似度;在计算完每个用户的局部向心度和每个用户每次发布的会话内容之间的相似度之后,通过设置风险判别阈值,过滤得到局部向心度低于预设向心度阈值并且会话内容相似度高于预设相似度阈值的用户节点,将其识别为失信用户。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种流式大数据安全处理方法,减少了待分析用户行为特征的数量,消除了特征间的冗余,采用的分类模型更加高效实用,有效地提高信用评估的速度以及信用评估的准确性,更好地适应了海量数据的流式计算场景。附图说明图1是根据本专利技术实施例的流式大数据安全处理方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种流式大数据安全处理方法。图1是根据本专利技术实施例的流式大数据安全处理方法流程图。本专利技术通过监控社交网络用户行为记录来实现对社交网络行为的检测,产生行为风险预警信息。用户行为记录包括社交网络会话信息。可选地,还包括用户交易记录信息。对于会话信息,在集群节点的出口进行端口镜像,将会话文本导入用于安全检测的主机上,捕获流式数据原始报文,解码报文并在其转发到检测引擎之前进行预处理。预处理包括会话分类、碎片重组和会话还原。预处理后通过匹配存储在数据库中的检测规则和预定义的风险特征代码,检查流式数据报文头部以及载荷,对风险行为进行识别与拦截。其中,所述社交网络会话记录中的文本内容包括但不限于,即时通信聊天记录、自媒体发布信息、微博或论坛留言信息、新闻网站的评论记录、电商网站评价信息等。上述社交网络行为记录仅为举例,实际情况下具体社交网络行为也可以示例不同,此处不作具体限定。在社交网络行为记录分析中,采用规则匹配和基于用户的行为模型进行风险行为的特征提取。首先从服务器中获取社交网络行为记录,然后根据数据库中的判别规则对日志文件进行模式匹配,在进行信用评估之前消除正常行为产生的冗余记录,从而识别和提取记录中存在的违约行为。用户之间一般通过网络关系实现信息跳转。这些跳转路径可以表示某个用户访问社区网站的操作。通过扫描社交网络图结构,建立当前待分析用户与关联用户的二元组,表示两者之间的跳转关系。然后通过分析服务器日志,建立用户在实际访问页面时的路径和行为。根据以上提供的行为信息和预警信息,通过使用风险性统计、脆弱性分析、可用性分析进行统计。分别读取社交网络用户行为的流式数据训练集和测试集,将经过规范化预处理的训练集数据和测试集数据使用主成分分析进行降维处理,去除冗余数据,进行数据维度约简,形成征信数据特征集。征信数据特征可从以下流式数据集合中选择一项或多项:历史信用特征,例如用户通过金融网站的支付历史和还款历史记录,购物网站的购买、退换、取消订单记录;社会关系特征,即用户在社交网络中建立关联的其他用户的信用数据,还包括用户与其他关联用户的交往密集度、深度和广度,例如关系维持时间,会话频率等;行为偏好特征,根据用户访问网页或应用的类型、时段、频率和社交网络评价信息,统计用户行为规律;身份属性特征,即通过用户网络行为,预测个人身份相关属性,包括年龄、职业、婚姻、教育程度,并验证与用户输入的基本信息的一致性。上述特征信息仅为举例,实际情况下的样本所包含的特征信息的数量,可以多于或少于所示信息的数量,具体特征信息也可以示例不同,此处不作具体限定。从征信数据特征集中筛选多维数据特征,并将训练集的数据特征和类型载入DBN信念网络分类器,经过DBN信念网络进行训练,然后载入测试集的特征对其类型进行预测,得到测试集的数据分类预测结果。其中,所述DBN信念网络分类器多个隐含层,并且隐含层之间采用不同的激励函数来计算。训练数据经过DBN信念网络分类器训练之后得到结果,然后载入测试数据,根据训练有效结果对测试数据集类型进行预测。得到预测结果,即完成基于机器学习的信用等级的检测。最后,载入测试集类型标记与DBN信念网络分类器预测值进行对比和评估。在对选择出的征信数据特征进行分类时,优选地,通过定义超平面尝试将数据集分成正样本和负样本2类。假设存在2类线性可分的数据样本集合:(xi,yi),i=1,2,…,n,n为样本数量,yi∈{+1,-1},满足以下条件:yi(ω·xi)-1≥0,ω为特征权重调节参数,使||ω||2/2最小的分类器为最优的本文档来自技高网...

【技术保护点】
1.一种流式大数据安全处理方法,其特征在于,包括:基于社交网络拓扑,计算用户节点的局部向心度特征;所述社交关系网络拓扑的节点表示用户,边表示用户之间的社交关系;所述节点的局部向心度表示从网络图移除该节点后,网络的关联能量下降的程度;其中社交网络图G的关联能量被定义为:EL(G)=∑θ

【技术特征摘要】
1.一种流式大数据安全处理方法,其特征在于,包括:基于社交网络拓扑,计算用户节点的局部向心度特征;所述社交关系网络拓扑的节点表示用户,边表示用户之间的社交关系;所述节点的局部向心度表示从网络图移除该节点后,网络的关联能量下降的程度;其中社交网络图G的关联能量被定义为:EL(G)=∑θ2θ表示图G的基尔霍夫矩阵的特征值;所述图G的基尔霍夫矩阵为L(G)=D(G)-A(G);A(G)是图形G的邻接矩阵,D(G)是顶点出度的对角矩阵。对于有n个节点,出度分别为d1,d2,…,dn的拓扑图G,其关联能量为在社交关系网络中,用节点表示用户,边表示社交关系。从节点Vi指向节点Vj的边a=(i,j)表示用户i与j存在至少一个会话。。将...

【专利技术属性】
技术研发人员:马涛
申请(专利权)人:成都威嘉软件有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1