The embodiment of the manual discloses a method, device and device for risk identification of social contents. The scheme includes: the machine learning model of the tree pile structure is processed, the feature dimension of the identified social content data is extended, and then the feature input depth machine learning model is predicted to identify whether the social content data is in risk.
【技术实现步骤摘要】
一种社交内容风险识别方法、装置以及设备
本说明书涉及计算机软件
,尤其涉及一种社交内容风险识别方法、装置以及设备。
技术介绍
随着计算机技术和互联网技术的迅速发展,社交活动越来越多地基于互联网进行,包括但不限于论坛交流、即时通讯、网上交易等活动,在活动中相应地产生一些行为记录、发布或者传播的语料等数据,这里统称为社交内容。在实际应用中,一些社交内容是存在风险的,会影响正常用户的上网体验,严重的还可能威胁网络安全甚至现实社会安全,比如,暴力、恐怖或者政治相关的不当行为或者不当言论等。在现有技术中,往往基于经验设置一些关键词,通过关键词匹配对社交内容进行风险识别。基于现有技术,需要更为可靠的社交内容风险识别方案。
技术实现思路
本说明书实施例提供一种社交内容风险识别方法、装置以及设备,用以解决如下技术问题:需要更为可靠的社交内容风险识别方案。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种社交内容风险识别方法,包括:获取待识别的社交内容数据;提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否存在风险。本说明书实施例提供的一种社交内容风险识别装置,包括:获取模块,获取待识别的社交内容数据;提取模块,提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;识别模块,通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否 ...
【技术保护点】
1.一种社交内容风险识别方法,包括:获取待识别的社交内容数据;提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否存在风险。
【技术特征摘要】
1.一种社交内容风险识别方法,包括:获取待识别的社交内容数据;提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否存在风险。2.如权利要求1所述的方法,所述树桩结构的机器学习模型和所述深度机器学习模型预先利用存在风险的黑样本和不存在风险的白样本进行过训练。3.如权利要求1所述的方法,所述提取所述社交内容数据中的社交行为特征和/或社交语料特征,具体包括:对所述社交内容数据进行数据清洗;利用特征工程,从数据清洗后的所述社交内容数据中提取社交行为特征和/或社交语料特征。4.如权利要求1所述的方法,所述输入树桩结构的机器学习模型进行处理,得到维度扩展的特征,具体包括:输入树桩结构的机器学习模型进行处理,得到多个叶节点的预测数据;根据所述多个叶节点的预测数据,提取得到维度扩展的特征。5.如权利要求4所述的方法,所述多个叶节点包括:所述树桩结构的机器学习模型处理后的最后一层叶节点。6.如权利要求1所述的方法,所述识别所述社交内容数据是否存在风险后,所述方法还包括:基于定时调度,定时获取并向风控平台提供社交内容数据的风险识别结果。7.如权利要求1~6任一项所述的方法,所述树桩结构的机器学习模型包括梯度提升决策树GBDT。8.如权利要求1~6任一项所述的方法,所述深度机器学习模型包括深度神经网络DNN。9.如权利要求1~6任一项所述的方法,所述存在风险具体包括:包含与指定领域相关的不当行为或者不当言论。10.一种社交内容风险识别装置,包括:获取模块,获取待识别的社交内容数据;提取模块,提取所述社交内容数据中的社交行为特征和/或社交语料特征,并输入树桩结构的机器学习模型进行处理,得到维度扩展的特征;识别模块,通过将所述维度扩展的特征输入深度机器学习模型进行处理,识别所述社交内容数据是否...
【专利技术属性】
技术研发人员:王川,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。