一种用户数据获取方法、系统、电子设备、芯片及介质技术方案

技术编号:41661803 阅读:29 留言:0更新日期:2024-06-14 15:22
本公开提供一种用户数据获取方法、系统、电子设备、芯片及介质,通过获取日志信息,并从日志信息中提取多个用户的初始特征信息;基于初始特征信息,确定互信息,互信息用于表示同一用户的任意两个特征信息之间的依赖程度;基于遗传算法,利用互信息对多个用户的特征信息进行筛选,以确定优化特征信息;根据优化特征信息,对日志信息进行球聚类处理,将优化特征信息划分为多个用户行为集合,多个用户行为集合用于作为训练数据训练第一模型,第一模型用于评估用户日志的异常风险值。通过用户的多个特征信息之间的互信息,对特征信息进行筛选,并利用球聚类对用户进行分类,得到训练数据进行模型训练,解决了相关技术中单一基于内容特征识别方法的实用性低的问题,减少了计算量,并进一步提升了搜索效率。

【技术实现步骤摘要】

本公开涉及机器学习领域,尤其涉及一种用户数据获取方法、系统、电子设备、芯片及介质


技术介绍

1、在当今互联网技术高度发达的背景下,日志的重要性日益凸显。由于网络交流平台的隐蔽性,网络社交平台中存在着大量扰乱公众舆论的网络异常用户。通过日志提高异常用户检测的准确率是非常重要的,可以让服务提供商更多地赢得客户信任,保护公司利益,促进企业发展。近年来,研究人员对日志异常用户检测的技术主要包括:基于基础方法的日志异常用户检测技术和基于神经网络的日志异常用户检测技术。然而,第一类方法主要利用基础方法实现异常用户检测,由于此类用户的自我隐蔽意识越来越强,单纯进行文本内容的分析常常会漏掉大部分使用正常文本特征进行假象传播的水军,因此传统的单一基于内容特征的识别方法实用性较低;第二类方法主要利用神经网络实现异常用户检测,神经网络往往存在大量参数,算法复杂度会随着参数量的增加以指数级上升,花费大量计算资源。


技术实现思路

1、为了解决相关技术中存在的问题,本公开提出一种用户数据获取方法,包括:获取日志信息,并从日志信息中提取本文档来自技高网...

【技术保护点】

1.一种用户数据获取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述初始特征信息,确定互信息包括:

3.根据权利要求1所述的方法,其特征在于,所述基于遗传算法,利用所述互信息对所述多个用户的特征信息进行筛选,以确定优化特征信息包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述多个优化种群进行交叉操作包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述优化特征信息,对所述日志信息进行球聚类处理包括:

6.根据权利要求5所述的方法,其特征在于,所述确定每个初始球的质心的邻球...

【技术特征摘要】

1.一种用户数据获取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述初始特征信息,确定互信息包括:

3.根据权利要求1所述的方法,其特征在于,所述基于遗传算法,利用所述互信息对所述多个用户的特征信息进行筛选,以确定优化特征信息包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述多个优化种群进行交叉操作包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述优化特征信息,对所述日志信息进行球聚类处理包括:

6.根据权利要求5所述的...

【专利技术属性】
技术研发人员:梁静雯
申请(专利权)人:中移苏州软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1