一种社交内容风险识别方法、装置以及设备制造方法及图纸

技术编号:18576961 阅读:29 留言:0更新日期:2018-08-01 12:06
本说明书实施例公开了一种社交内容风险识别方法、装置以及设备。方案包括:通过树桩结构的机器学习模型处理,对待识别的社交内容数据的特征进行特征维度扩展,再将得到的维度扩展的特征输入深度机器学习模型进行预测,从而识别该社交内容数据是否存在风险。

A method, device and device for risk identification of social contents

The embodiment of the manual discloses a method, device and device for risk identification of social contents. The scheme includes: the machine learning model of the tree pile structure is processed, the feature dimension of the identified social content data is extended, and then the feature input depth machine learning model is predicted to identify whether the social content data is in risk.

【技术实现步骤摘要】
一种社交内容风险识别方法、装置以及设备
本说明书涉及计算机软件
,尤其涉及一种社交内容风险识别方法、装置以及设备。
技术介绍
随着计算机技术和互联网技术的迅速发展,社交活动越来越多地基于互联网进行,包括但不限于论坛交流、即时通讯、网上交易等活动,在活动中相应地产生一些行为记录、发布或者传播的语料等数据,这里统称为社交内容。在实际应用中,一些社交内容是存在风险的,会影响正常用户的上网体验,严重的还可能威胁网络安全甚至现实社会安全,比如,暴力、恐怖或者政治相关的不当行为或者不当言论等。在现有技术中,往往基于经验设置一些关键词,通过关键词匹配对社交内容进行风险识别。基于现有技术,需要更为可靠的社交内容风险识别方案。
技术实现思路
本说明书实施例提供一种社交内容风险识别方法、装置以及设备,用以解决如下技术问题:需要更为可靠的社交内容风险识别方案。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种社交内容风险识别方法,包括:获取待识别的社交内容数据;提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否存在风险。本说明书实施例提供的一种社交内容风险识别装置,包括:获取模块,获取待识别的社交内容数据;提取模块,提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;识别模块,通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否存在风险。本说明书实施例提供的一种社交内容风险识别设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取待识别的社交内容数据;提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否存在风险。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:相比于原始的特征,维度扩展的特征能够更精细地刻画社交内容数据,便于用诸如深度神经网络(DeepNeuralNetworks,DNN)等包含大量输入节点的深度机器学习模型进行处理,进而有利于更可靠地识别社交内容数据是否存在风险。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图;图2为本说明书实施例提供的一种社交内容风险识别方法的流程示意图;图3为本说明书实施例提供的社交内容风险识别方法涉及的两类模型的关系原理图;图4为本说明书实施例提供的社交内容风险识别方法的一种具体实施流程框图;图5为本说明书实施例提供的对应于图2的一种社交内容风险识别装置的结构示意图。具体实施方式本说明书实施例提供一种社交内容风险识别方法、装置以及设备。为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。在本说明书实施例中,利用深度机器学习模型进行社交内容风险识别,相比于根据经验关键词识别的方式更为可靠。考虑到实际应用中,社交内容数据中的原始的特征维度较少,不利于包含大量输入节点的深度机器学习模型处理,因此,先利用诸如梯度提升决策树(GradientBoostingDecisionTree,GBDT)等树状结构的机器学习模型对原始的特征进行维度扩展,以更精细地刻画社交内容数据,再用于深度机器学习模型进行风险识别。图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图。该整体架构中,主要涉及两类模型:树桩结构的机器学习模型,用于针对待识别社交内容数据的特征,扩展特征维度;深度机器学习模型,用于根据维度扩展的特征预测风险,得到风险识别结果。这两类模型可以处于同一设备,也可以处于不同设备。下面主要基于图1中的结构,对说明书的方案详细说明。图2为本说明书实施例提供的一种社交内容风险识别方法的流程示意图。图2中的流程可以包括以下步骤:S202:获取待识别的社交内容数据。在本说明书实施例中,社交内容数据可以基于用户对各类相关应用的日常使用而采集得到。社交内容数据可以保存于数据库或者数据仓库中,以便于提取使用,并且还可以进一步地进行数据挖掘、数据清洗等处理。相关应用比如包括即时通讯应用、支付应用、游戏应用、论坛应用等。风险识别可以以用户为单位进行,比如,提取某用户近一天或者一周的社交内容数据,进行风险识别;风险识别也可以以平台为单位进行,比如,提取某论坛近一小时内产生的社交内容数据,进行风险识别;等等。S204:提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征。在本说明书实施例中,社交行为比如包括用户建立用户群、点对点聊天、群聊天、在论坛发表言论或者转发言论、转账、网购等社交相关的行为。社交语料比如包括用户的个人聊天记录、群聊天记录、在论坛上所发表或者转发的言论、转账留言信息等由于社交行为而产生的语料。在本说明书实施例中,社交行为特征比如包括社交行为的发生时间、结束时间、持续时间、间隔时间、频度、行为发生时用户所在位置等。社交语料特征比如包括关键词、敏感词、词频、逆向文件频率、语序等。社交行为特征、社交语料特征可以分别用多个相应的变量综合表示,每个变量通常可以作为特征的一个维度。在实际应用中,上述变量的数量较少,通常只有十几个到几十个,从而导致特征维度较低,本申请采用树桩结构的机器学习模型进行处理,能够实现特征的维度扩展。树桩结构的机器学习模型以一个或者多个根节点接收输入数据,经过一层或者多层叶节点处理后,由多个叶节点输出数据。树桩结构的机器学习模型比如包括GBDT、XGBoost等。叶节点输出的数据是对根节点输入的数据的细分结果,相应地,当根节点输入原始的特征时,叶节点输出的是细分特征,细分特征可以作为原始的特征的维度,从而能够实现特征维度扩展。S206:通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否存在风险。在本说明书实施例中,树桩结构的机器学习模型、深度机器学习模型都是预先利用存在风险的黑样本和不存在风险的白样本进行过训练的,这里的黑样本和白样本指社交内容数据样本。深度机器学习模型处理后输出的结果可以是分类标签,也可以是概率预测值等。以概率预测值为例,在训练深度机器学习模型时,可以将黑样本的概率值标记为本文档来自技高网
...

【技术保护点】
1.一种社交内容风险识别方法,包括:获取待识别的社交内容数据;提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否存在风险。

【技术特征摘要】
1.一种社交内容风险识别方法,包括:获取待识别的社交内容数据;提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否存在风险。2.如权利要求1所述的方法,所述树桩结构的机器学习模型和所述深度机器学习模型预先利用存在风险的黑样本和不存在风险的白样本进行过训练。3.如权利要求1所述的方法,所述提取所述社交内容数据中的社交行为特征和/或社交语料特征,具体包括:对所述社交内容数据进行数据清洗;利用特征工程,从数据清洗后的所述社交内容数据中提取社交行为特征和/或社交语料特征。4.如权利要求1所述的方法,所述输入树桩结构的机器学习模型进行处理,得到维度扩展的特征,具体包括:输入树桩结构的机器学习模型进行处理,得到多个叶节点的预测数据;根据所述多个叶节点的预测数据,提取得到维度扩展的特征。5.如权利要求4所述的方法,所述多个叶节点包括:所述树桩结构的机器学习模型处理后的最后一层叶节点。6.如权利要求1所述的方法,所述识别所述社交内容数据是否存在风险后,所述方法还包括:基于定时调度,定时获取并向风控平台提供社交内容数据的风险识别结果。7.如权利要求1~6任一项所述的方法,所述树桩结构的机器学习模型包括梯度提升决策树GBDT。8.如权利要求1~6任一项所述的方法,所述深度机器学习模型包括深度神经网络DNN。9.如权利要求1~6任一项所述的方法,所述存在风险具体包括:包含与指定领域相关的不当行为或者不当言论。10.一种社交内容风险识别装置,包括:获取模块,获取待识别的社交内容数据;提取模块,提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;识别模块,通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否...

【专利技术属性】
技术研发人员:王川
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1