当前位置: 首页 > 专利查询>中南大学专利>正文

一种账户识别方法、装置、终端设备及介质制造方法及图纸

技术编号:38768098 阅读:29 留言:0更新日期:2023-09-10 10:41
本申请适用于序列挖掘技术领域,提供了一种账户识别方法、装置、终端设备及介质,利用行为分类表,对已识别账户的行为记录进行分类,得到行为事件序列;根据时间信息和时间间隔阈值,对行为事件序列进行切分,得到多个行为序列片段;针对每个行为序列片段,提取每个行为事件的多元特征;构建行为序列编码器,并利用行为事件序列和多元特征对行为序列编码器进行训练,得到训练后的行为序列编码器;根据训练后的行为序列编码器,构建账户识别模型,并利用预先构建的识别损失函数对账户识别模型进行反向传播,得到最终的账户识别模型;利用最终的账户识别模型对待识别账户进行识别。本申请能够提高账户识别能力。申请能够提高账户识别能力。申请能够提高账户识别能力。

【技术实现步骤摘要】
一种账户识别方法、装置、终端设备及介质


[0001]本申请属于序列挖掘
,尤其涉及一种账户识别方法、装置、终端设备及介质。

技术介绍

[0002]近年来,不少研究者致力于账户的识别工作。他们大多使用基于监督学习的方法,在标注数据集上取得了很高的识别准确率,达到了一定的自动化水平。这类方法需要从账户资料、账户活动记录、文本信息等方面提取并手工设计大量特征,大多局限于识别特定活动类型的软件机器人,通常需要组合使用。同时,这些手工构建的标注数据集规模有限,模型对于未在数据集中出现过的机器人,或者是新类型机器人识别能力较差。

技术实现思路

[0003]本申请实施例提供了一种账户识别方法、装置、终端设备及介质,可以解决现有账户识别方法识别能力较差的问题。
[0004]第一方面,本申请实施例提供了一种账户识别方法,包括:利用预先配置的行为分类表,对采集的已识别账户的行为记录进行分类,得到行为事件序列;行为事件序列包括多个行为事件和多个行为事件中每个行为事件对应的时间信息;根据时间信息和预先设置的时间间隔阈值,对行为事件序列进行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种账户识别方法,其特征在于,包括:利用预先配置的行为分类表,对采集的已识别账户的行为记录进行分类,得到行为事件序列;所述行为事件序列包括多个行为事件和所述多个行为事件中每个行为事件对应的时间信息;根据所述时间信息和预先设置的时间间隔阈值,对所述行为事件序列进行切分,得到多个行为序列片段;分别针对所述多个行为序列片段中的每个行为序列片段,提取所述行为序列片段中每个行为事件的多元特征;所述多元特征包括类型特征、文本特征以及嵌入特征;构建用于区分不同账户行为序列表示的行为序列编码器,并利用所述行为事件序列和所述多元特征对所述行为序列编码器进行训练,得到训练后的行为序列编码器;所述行为序列编码器包括用于生成行为事件子序列的序列构建模块、用于在行为事件子序列中生成正负样本的样本构建模块以及用于对行为事件子序列进行编码的编码模块,所述序列构建模块的输出端连接所述样本构建模块的输入端,所述样本构建模块的输出端连接所述编码模块的输入端,所述序列编码器输入端接收所述行为事件序列和所述多元特征,所述序列编码器输出端输出所述行为事件序列的序列表示;根据所述训练后的行为序列编码器,构建账户识别模型,并利用预先构建的识别损失函数对所述账户识别模型进行反向传播,得到最终的账户识别模型;利用所述最终的账户识别模型对待识别账户进行识别。2.根据权利要求1所述的账户识别方法,其特征在于,所述行为分类表包括一级分类、二级分类以及三级分类,所述一级分类表示行为的发生位置,所述二级分类表示在所述发生位置下的行为类型,所述三级分类表示所述行为类型的结果。3.根据权利要求1所述的账户识别方法,其特征在于,所述根据所述时间信息和预先设置的时间间隔阈值,对所述行为事件序列进行切分,得到多个行为序列片段,包括:根据所述时间信息,计算所述行为事件序列中所有相邻的两个行为事件之间的时间间隔;对所述时间间隔大于所述时间间隔阈值的两个行为事件进行切分,得到多个行为序列片段。4.根据权利要求3所述的账户识别方法,其特征在于,所述分别针对所述多个行为序列片段中的每个行为序列片段,提取所述行为序列片段中每个行为事件的多元特征,包括:分别针对所述行为序列片段中的每个行为事件,执行步骤i至步骤ii:步骤i,通过计算公式得到所述行为事件的类型特征;其中,表示所述行为事件片段中第个行为事件的类型特征,表示独热编码,表示第个行为事件的行为类型;步骤ii,获取所述行为事件对应的文本信息,并通过计算公式
得到所述行为事件的文本特征;其中,所述文本信息包括所述行为事件的行为类型、发生位置以及效果,表示所述行为事件片段中第个行为事件的文本特征,表示第个行为事件的文本信息包含的不重复单词数,表示所述文本信息中的第个单词,表示第个单词对应的词向量;步骤iii,将所述行为事件输入Event2vec模型,得到所述行为事件的嵌入特征;步骤iv,通过计算公式,得到所述多元特征;其中,表示所述行为事件片段中第个行为事件的多元特征。5.根据权利要求4所述的账户识别方法,其特征在于,在所述序列构建模块,根据所述行为事件序列的长度,确定行为事件子序列的长度,并根据所述子序列的长度进行采样,得到多个行为事件子序列;在所述样本构建模块,通过计算公式通过计算公式;得到正样本和负样本 ;所述正样本表示同一行为事件序列的子序列对,所述负样本表示不同的行为事件序列的子序列对,表示两个不同的行为事件序列,,表示对行为事件序列进行采样得到行为事件序列子序列的过程,表示对行为事件序列进行采样得到行为事件序列子序列的过程;在所述编码模块,执行以下步骤:针对所述多个行为事件子序列中的每个行为事件子序列,...

【专利技术属性】
技术研发人员:廖志芳黄雪纯张博霖刘文龙
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1