基于人工智能的用户身份识别方法、装置、终端及介质制造方法及图纸

技术编号:26482243 阅读:12 留言:0更新日期:2020-11-25 19:28
本发明专利技术涉及人工智能,提供一种基于人工智能的用户身份识别方法、装置、终端及介质,包括:将多个用户的埋点序列编码为第一文本序列;对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;根据第一文本序列及对应的多个时间令牌得到第二文本序列并切分为多个文本语句;根据业务分层模型对多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;基于负样本及正样本对BERT预训练模型进行参数微调得到用户身份识别模型;使用用户身份识别模型识别目标用户的目标文本序列,得到目标用户的身份。本发明专利技术能够基于埋点数据识别用户的身份。

【技术实现步骤摘要】
基于人工智能的用户身份识别方法、装置、终端及介质
本专利技术涉及人工智能
,尤其涉及一种基于人工智能的用户身份识别方法、装置、终端及介质。
技术介绍
在保险及金融领域的一些APP的使用场景中,存在冒用他人的终端、账号或身份进行APP操作进而形成欺诈的风险。比如在寿险的增员场景中,有些准增员在自己不能参加活动的情况下会让其他人代替参加活动并登陆账号进行操作。同一APP账号下的多人操作会存在虚假增员、虚假人力以及骗佣、套佣等欺诈的风险。同样在其它的一些金融类APP,比如手机银行、第三方支付等APP中,同样有需要甄别用户身份唯一性的需求。因此,有必要提供一种能够识别应用点击行为中的身份的唯一性的方案。
技术实现思路
鉴于以上内容,有必要提供一种基于人工智能的用户身份识别方法、装置、终端及介质,能够基于埋点数据识别用户的身份。本专利技术的第一方面提供一种基于人工智能的用户身份识别方法,所述方法包括:获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列;对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句;根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型;使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。可选的,所述获取多个用户的埋点序列包括:针对每一个用户,按照时间顺序获取所述用户的多个埋点数据;获取所述多个埋点数据中相同埋点数据对应的多个埋点时间戳;判断所述多个埋点时间戳中每两个相邻的埋点时间戳之间的时间差值是否小于预设时间差阈值;当确定任意两个相邻的埋点时间戳之间的时间差值小于所述预设时间差阈值时,将所述任意两个相邻的埋点时间戳对应的埋点数据合并为一个埋点数据;根据合并后的埋点数据得到所述用户的埋点序列。可选的,所述将每个埋点序列编码为第一文本序列包括:获取所述埋点序列中的每个埋点数据中的每个字符;根据预设字符与文本之间的对应关系,将所述埋点序列中的每个埋点数据中的每个字符替换为对应的文本,得到文本序列。可选的,所述对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌包括:将每两个相邻的埋点时间戳之间的时间间隔进行第一分箱处理得到第一时间令牌;将每个埋点时间戳按照预设时间节点进行第二分箱处理得到第二时间令牌;计算每个埋点时间戳与预设参考时间戳的时间间隔得到第三时间令牌。可选的,所述根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列包括:将每个埋点时间戳对应的第一时间令牌、第二时间令牌及第三时间令牌进行拼接得到时间令牌序列;将与所述埋点时间戳对应的所述时间令牌序列插入所述第一文本序列中与所述埋点时间戳对应的文本语句处,得到第二文本序列。可选的,所述使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份包括:将所述目标文本序列切分为多个文本分句;对所述多个文本分句进行两两组合得到多个文本分句对;使用所述用户身份识别模型对每个文本分句对进行预测并输出对应文本分句对的得分;根据最低得分识别所述目标用户的身份。可选的,所述根据最低得分识别所述目标用户的身份包括:判断所述最低得分是否低于预设风险阈值;当确定所述最低得分小于或者等于所述预设风险阈值时,识别所述目标用户为低风险用户;当确定所述最低得分大于所述预设风险阈值时,识别所述目标用户为高风险用户。本专利技术的第二方面提供一种基于人工智能的用户身份识别装置,所述装置包括:序列编码模块,用于获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列;分箱处理模块,用于对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;文本切分模块,用于根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句;样本构建模块,用于根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;模型训练模块,用于基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型;身份识别模块,用于使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。本专利技术的第三方面提供一种终端,其特征在于,所述终端包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的基于人工智能的用户身份识别方法。本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被终端中的处理器执行以实现所述基于人工智能的用户身份识别方法。本专利技术所述的基于人工智能的用户身份识别方法、装置、终端及介质,可应用于智慧政务中,促进智慧城市的建设。本专利技术借助文本处理的思想来处理埋点数据,从而得到能够被自然语言训练模型(BERT预训练模型)进行识别和学习的文本语句。同时,为了使得埋点数据编码后的“文本数据”更加接近于自然语言能够处理的文本数据,通告引入时间戳并通过对时间戳进行分箱处理,丰富了编码后的“文本数据”的内容。基于所述文本语句进行训练得到用户身份识别模型,以对用户的点击行为中身份的唯一性进行判断,对潜在的欺诈行为给出风险的评级。附图说明图1是本专利技术基于人工智能的用户身份识别方法的较佳实施例的流程图。图2是本专利技术根据第一文本序列及对应的多个时间令牌得到的第二文本序列的示意图。图3是本专利技术基于人工智能的用户身份识别装置的较佳实施例的功能模块图。图4是本专利技术实现基于人工智能的用户身份识别方法的较佳实施例的终端的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。如图1所示,是本专利技术基于人工智能的用户身份识别方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。S11,获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列。将在APP中的任意一个页面或者任意一个按钮中埋下一个记录器称之为一个埋点。埋点是指APP中的页面或按钮的统计工具,每当用户点击某个按钮或停留在某个页面上时,该按钮或该页面对应的埋点被触发,被触发的埋点会自动上报埋点数据。终端可以获取不同角色的用户的埋本文档来自技高网...

【技术保护点】
1.一种基于人工智能的用户身份识别方法,其特征在于,所述方法包括:/n获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列;/n对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;/n根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句;/n根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;/n基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型;/n使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。/n

【技术特征摘要】
1.一种基于人工智能的用户身份识别方法,其特征在于,所述方法包括:
获取多个用户的埋点序列,并将每个埋点序列编码为第一文本序列;
对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌;
根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列,并将所述第二文本序列切分为多个文本语句;
根据业务分层模型对所述多个用户进行分层,并从同一层的用户中任意选取两个不同用户的两个文本语句构建负样本,从同一个用户的多个文本语句中随机选取两个文本语句构建正样本;
基于所述负样本及所述正样本对BERT预训练模型进行参数微调得到用户身份识别模型;
使用所述用户身份识别模型识别目标用户的目标文本序列,得到所述目标用户的身份。


2.如权利要求1所述的基于人工智能的用户身份识别方法,其特征在于,所述获取多个用户的埋点序列包括:
针对每一个用户,按照时间顺序获取所述用户的多个埋点数据;
获取所述多个埋点数据中相同埋点数据对应的多个埋点时间戳;
判断所述多个埋点时间戳中每两个相邻的埋点时间戳之间的时间差值是否小于预设时间差阈值;
当确定任意两个相邻的埋点时间戳之间的时间差值小于所述预设时间差阈值时,将所述任意两个相邻的埋点时间戳对应的埋点数据合并为一个埋点数据;
根据合并后的埋点数据得到所述用户的埋点序列。


3.如权利要求1所述的基于人工智能的用户身份识别方法,其特征在于,所述将每个埋点序列编码为第一文本序列包括:
获取所述埋点序列中的每个埋点数据中的每个字符;
根据预设字符与文本之间的对应关系,将所述埋点序列中的每个埋点数据中的每个字符替换为对应的文本,得到文本序列。


4.如权利要求1所述的基于人工智能的用户身份识别方法,其特征在于,所述对每个埋点序列中的多个埋点时间戳进行分箱处理得到多个时间令牌包括:
将每两个相邻的埋点时间戳之间的时间间隔进行第一分箱处理得到第一时间令牌;
将每个埋点时间戳按照预设时间节点进行第二分箱处理得到第二时间令牌;
计算每个埋点时间戳与预设参考时间戳的时间间隔得到第三时间令牌。


5.如权利要求4所述的基于人工智能的用户身份识别方法,其特征在于,所述根据所述第一文本序列及对应的所述多个时间令牌得到第二文本序列包括:
将每个埋点时间戳对应的第一时间令牌、第二时间令牌及第三时间令牌进行...

【专利技术属性】
技术研发人员:张跃张浩然
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1