System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种风险检测方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种风险检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41094415 阅读:3 留言:0更新日期:2024-04-25 13:53
本申请提供一种风险检测方法、装置、电子设备及存储介质,其中,风险检测方法包括:计算用户行为事件之间的相似度;根据用户行为事件之间的相似度,对用户行为事件进行一次聚类,获取一次聚类簇;采用预先训练好的对比学习模型,获取每个一次聚类簇内各用户行为事件的特征表示;基于特征表示,对每个一次聚类簇内的用户行为事件进行二次聚类,获取二次聚类簇;根据二次聚类簇,确定用户行为事件中的风险行为事件。上述方案中,一方面,采用二次聚类的方式,有利于改善上述风险检测方法的检测效率;另一方面,有利于改善上述风险检测方法的检测准确率。

【技术实现步骤摘要】

本申请涉及计算机,具体而言,涉及一种风险检测方法、装置、电子设备及存储介质


技术介绍

1、随着互联网的快速发展,大量的用户数据不断产生,例如网页浏览数据、搜索数据、购物数据、社交数据等,这些海量数据具有重要的商业价值以及安全价值,因此对其进行有效的分析并进行风险检测变得至关重要。

2、相关技术中基于用户数据的风险检测方法通常采用统计方法或监督学习方法,在处理大规模和高维度数据时,其风险检测准确率均较低。


技术实现思路

1、本申请实施例的目的在于提供一种风险检测方法、装置、电子设备及存储介质,用以改善风险检测准确率。

2、第一方面,本申请实施例提供一种风险检测方法,所述方法包括:计算用户行为事件之间的相似度;根据所述用户行为事件之间的相似度,对所述用户行为事件进行一次聚类,获取一次聚类簇;采用预先训练好的对比学习模型,获取每个所述一次聚类簇内各所述用户行为事件的特征表示;基于所述特征表示,对每个所述一次聚类簇内的所述用户行为事件进行二次聚类,获取二次聚类簇;根据所述二次聚类簇,确定所述用户行为事件中的风险行为事件。

3、在上述方案的实现过程中,先根据用户行为事件之间的相似度对用户行为事件进行一次聚类,获取一次聚类簇,然后采用预先训练好的对比学习模型获取每个一次聚类簇中各个用户行为事件的特征表示,随机根据所获取的特征表示再对每个一次聚类簇内的用户行为事件进行二次聚类,获取二次聚类簇;最后再根据二次聚类簇确定风险行为事件,一方面,采用二次聚类的方式,有利于改善上述风险检测方法的检测效率;另一方面,有利于改善上述风险检测方法的检测准确率。

4、在第一方面的一种实现方式中,所述根据所述二次聚类簇,确定所述用户行为事件中的风险行为事件,包括:若所述二次聚类簇内的所述用户行为事件数量大于第一预设数量阈值,或所述二次聚类簇内的所述用户行为事件数量小于第二预设数量阈值,则将该所述二次聚类簇确定为风险聚类簇;将所述风险聚类簇内的所有所述用户行为事件判定为风险行为事件。

5、在上述方案的实现过程中,通过二次聚类簇内的用户行为事件数量来判断二次聚类簇是否为风险聚类簇,并将过于聚集或过于分散的聚类簇确定为风险聚类簇,从而确定风险行为事件,能够快速筛选出风险聚类簇和风险行为事件,有利于改善上述风险检测方法的风险检测效率。

6、在第一方面的一种实现方式中,所述根据所述二次聚类簇,确定所述用户行为事件中的风险行为事件,包括:若所述二次聚类簇内的所述用户行为事件数量大于第一预设数量阈值,且在该所述二次聚类簇内中预设监测事件出现次数占比大于预设比例阈值,或所述二次聚类簇内的所述用户行为事件数量小于第二预设数量阈值,则将该所述二次聚类簇确定为风险聚类簇;将所述风险聚类簇内的所有所述用户行为事件判定为风险行为事件。

7、在上述方案的实现过程中,通过结合聚类簇内用户行为事件数量以及预设监测事件出现次数来共同确定风险聚类簇,能够更加准确的筛选出风险聚类簇和风险行为事件,有利于改善上述风险监测方法的风险检测准确率。

8、在第一方面的一种实现方式中,所述计算用户行为事件之间的相似度,包括:获取用户行为事件的自然语言表示;将所述自然语言表示映射至哈希空间,获取所述用户行为事件的哈希值;计算所述哈希值之间的相似度;

9、所述根据所述用户行为事件之间的相似度,对所述用户行为事件进行一次聚类,获取一次聚类簇,包括:根据所述用户行为事件对应的所述哈希值之间的相似度,对所述用户行为事件进行一次聚类,获取一次聚类簇。

10、在上述方案的实现过程中,将用户行为事件的自然语言表示映射至哈希空间以获取用户行为事件的哈希值,从而根据哈希值之间的相似度确定用户行为事件之间的相似度,一方面,通过哈希值来计算相似度的方式,大大降低了用户行为事件之间相似度的计算量,有利于改善上述风险检测方法的风险检测效率;另一方面,使得上述风险检测方法能够适用于海量数据场景,从而改善上述风险检测方法的适应性。

11、在第一方面的一种实现方式中,所述将所述自然语言表示映射至哈希空间,获取所述用户行为事件的哈希值,包括:将所述自然语言表示映射至哈希空间,获取所述用户行为事件的simhash值或minhash值。

12、在上述方案的实现过程中,可以将用户行为事件转化为simhash值或minhash值,以便快速计算用户行为事件之间的相似度,一方面,有利于改善上述风险检测方法的风险检测效率;另一方面,使得上述风险检测方法能够适用于更多的应用场景,有利于改善上述风险检测方法的适应性。

13、在第一方面的一种实现方式中,在所述采用预先训练好的对比学习模型,获取每个所述一次聚类簇内各所述用户行为事件的特征表示之前,所述方法还包括:以包含有正样本和负样本的训练数据集为输入,训练对比学习模型,获取训练好的所述对比学习模型。

14、在上述方案的实现过程中,通过包含有正样本和负样本的训练数据集训练对比学习模型,并通过调整表征空间中数据的位置,从而使得正样本之间的距离更加接近,而负样本之间的距离更加远离,有利于改善二次聚类的聚类效果,从而改善上述风险检测方法的风险检测准确率。

15、在第一方面的一种实现方式中,所述以包含有正样本和负样本的训练数据集为输入,训练对比学习模型,获取训练好的所述对比学习模型,包括:对训练数据集进行聚类,获取训练聚类簇;在一个或多个所述训练聚类簇内确定正样本和负样本;以一个或多个所述训练聚类簇内的所述正样本和所述负样本为输入,训练对比学习模型,获取训练好的所述对比学习模型。

16、在上述方案的实现过程中,通过对训练数据集进行聚类获取训练聚类簇,以通过训练聚类簇快速获取高质量的正样本和负样本,一方面,有利于改善对比学习模型的训练效率;另一方面,有利于改善对比学习模型的训练效率,进而改善上述风险检测方法的风险检测效果。

17、第二方面,本申请实施例提供一种风险检测装置,包括:

18、相似度计算模块,用于计算用户行为事件之间的相似度;

19、一次聚类模块,用于根据所述用户行为事件之间的相似度,对所述用户行为事件进行一次聚类,获取一次聚类簇;

20、特征表示获取模块,用于采用预先训练好的对比学习模型,获取每个所述一次聚类簇内各所述用户行为事件的特征表示;

21、二次聚类模块,用于基于所述特征表示,对每个所述一次聚类簇内的所述用户行为事件进行二次聚类,获取二次聚类簇;

22、风险行为事件确定模块,用于根据所述二次聚类簇,确定所述用户行为事件中的风险行为事件。

23、第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和通信总线,其中所述处理器和所述存储器通过所述通信总线完成相互间的通信;所述存储器中存储有可被所述处理器执行的计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式本文档来自技高网...

【技术保护点】

1.一种风险检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的风险检测方法,其特征在于,所述根据所述二次聚类簇,确定所述用户行为事件中的风险行为事件,包括:

3.根据权利要求1所述的风险检测方法,其特征在于,所述根据所述二次聚类簇,确定所述用户行为事件中的风险行为事件,包括:

4.根据权利要求1所述的风险检测方法,其特征在于,所述计算用户行为事件之间的相似度,包括:

5.根据权利要求4所述的风险检测方法,其特征在于,所述将所述自然语言表示映射至哈希空间,获取所述用户行为事件的哈希值,包括:

6.根据权利要求1~5中任一项所述的风险检测方法,其特征在于,在所述采用预先训练好的对比学习模型,获取每个所述一次聚类簇内各所述用户行为事件的特征表示之前,所述方法还包括:

7.根据权利要求6所述的风险检测方法,其特征在于,所述以包含有正样本和负样本的训练数据集为输入,训练对比学习模型,获取训练好的所述对比学习模型,包括:

8.一种风险检测装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:处理器、存储器和通信总线,其中,所述处理器和所述存储器通过所述通信总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1~7中任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1~7中任一项所述的方法。

...

【技术特征摘要】

1.一种风险检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的风险检测方法,其特征在于,所述根据所述二次聚类簇,确定所述用户行为事件中的风险行为事件,包括:

3.根据权利要求1所述的风险检测方法,其特征在于,所述根据所述二次聚类簇,确定所述用户行为事件中的风险行为事件,包括:

4.根据权利要求1所述的风险检测方法,其特征在于,所述计算用户行为事件之间的相似度,包括:

5.根据权利要求4所述的风险检测方法,其特征在于,所述将所述自然语言表示映射至哈希空间,获取所述用户行为事件的哈希值,包括:

6.根据权利要求1~5中任一项所述的风险检测方法,其特征在于,在所述采用预先训练好的对比学习模型,获取每个所述一次聚类簇内各所...

【专利技术属性】
技术研发人员:唐康周斌孙鑫焱
申请(专利权)人:上海识装信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1