风险识别模型训练方法、用户风险识别方法及相关装置制造方法及图纸

技术编号:27217949 阅读:16 留言:0更新日期:2021-02-04 11:35
本发明专利技术公开了一种风险识别模型训练方法、用户风险识别方法及相关装置,该训练方法包括:对初始样本中的搜索日志进行去重处理,利用关键词典对各个单词进行排序,关键词字典是依据单词的重要程度设定的;将排序结果按照预设长度截取为至少一个输入文本;将至少一个输入文本作为训练样本,对风险识别模型进行训练,得到目标风险识别模型。上述方法,训练样本是对搜索日志经过去重,将得到各个单词依据关键词字典进行排序,并截取为预设长度得到的,相较于接拼接方式缩短了训练样本的长度,提高了训练效率,即便进行了截取,由于训练样本是基于关键词字典进行排序的,也会保留了重要程度较高的分词,同时也保证了训练的准确率。同时也保证了训练的准确率。同时也保证了训练的准确率。

【技术实现步骤摘要】
风险识别模型训练方法、用户风险识别方法及相关装置


[0001]本专利技术涉及数据处理
,尤其涉及一种风险识别模型训练方法、用户风险识别方法及相关装置。

技术介绍

[0002]针对每一个用户,基于网络进行信息搜索时,会产生大量的搜索日志,搜索日志通常以文本的形式存在,利用上述文本可以对用户风险进行识别,在现有的风险识别过程中,首先基于TextCNN、LSTM和预训练神经网络等方法构建模型进行训练,得到风险识别模型,基于风险识别模型进行风险识别,其中,针对TextCNN模型的训练过程包括:将用户搜索日志拼接成一条长文本,利用TextCNN神经网络,针对用户的风险标签进行训练。针对LSTM模型的训练过程包括:将用户搜索日志拼接成一条长文本,利用这种带长短期记忆的RNN神经网络,针对用户的风险标签进行训练。针对预训练神经网络模型的训练过程包括:将用户搜索日志拼接成一条长文本,使用大规模语料训练得到预训练神经网络,针对用户的风险标签进行微调。
[0003]但是,目前利用神经网络对于长文本输入处理的时间较长,而且识别效果差,因此,上述训练得到的神经网络模型的准确率和效率都无法达到较高要求,直接影响到用户风险识别过程。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种风险识别模型训练方法、用户风险识别方法及相关装置,用以解决目前利用神经网络对于长文本输入处理的时间较长,而且识别效果差,因此,上述训练得到的神经网络模型的准确率和效率都无法达到较高要求,直接影响到用户风险识别过程的问题。具体方案如下:
[0005]一种风险识别模型训练方法,包括:
[0006]获取初始样本;
[0007]对所述初始样本中的搜索日志进行去重处理,得到各个单词;
[0008]利用关键词典对所述各个单词进行排序,得到排序结果,所述关键词字典是预先建立的,包含有多个单词,且,所述单词的顺序依据单词的重要程度进行设定;
[0009]将所述排序结果按照预设长度截取为至少一个输入文本;
[0010]将所述至少一个输入文本作为训练样本,对风险识别模型进行训练,得到目标风险识别模型,其中,所述风险识别模型基于Embedding层和Transformer结构进行构建。
[0011]上述的方法,可选的,关键词字典的建立过程包括:
[0012]将每一个用户的全部搜索日志拼接,得到拼接文本;
[0013]对所述拼接文本进行分词,得到各个单词;
[0014]计算每一个单词对应的高低风险区分度和出现的频数,将所述高低风险区分度和所述频数的乘积作为该分词的重要性值;
[0015]对所述各个单词基于重要性值进行排序,得到所述关键词字典。
[0016]上述的方法,可选的,计算每一个单词对应的高低风险区分度,包括:
[0017]统计搜索过该单词的各个用户的高风险用户的比例H和低风险用户的比例L;
[0018]获取全部用户中高风险用户的比例H

和低风险用户的比例L

,基于预设公式计算高低风险区分度,其中R表示高低风险区分度。
[0019]上述的方法,可选的,基于Embedding层和Transformer结构构建风险识别模型,包括:
[0020]基于预设的训练语料对文本预测模型进行训练,得到目标文本预测模型,其中,所述目标文本训练模型包括:所述Embedding层和所述Transformer结构;
[0021]当训练完成,获取所述Embedding层和所述Transformer结构;
[0022]添加风险识别层、基于所述Embedding层、所述Transformer结构和所述风险识别层的顺序构建所述风险识别模型。
[0023]上述的方法,可选的,还包括:
[0024]获取所述排序结果的长度;
[0025]在所述长度小于所述预设长度的情况下,将所述排序结果中添加空白向将其补充为所述预设长度。
[0026]一种用户风险识别方法,包括:
[0027]在接收到对当前用户的风险识别请求的情况下,调用目标风险识别模型,其中,所述目标风险识别模型基于上述训练方法进行训练得到;
[0028]获取所述当前用户的当前搜索日志,对所述当前搜索日志进行去重处理,得到各个当前单词;
[0029]将所述各个当前单词依据关键词字典进行排序,得到当前排序结果;
[0030]将所述排序结果按照预设长度截取为当前输入文本;
[0031]将所述当前输入文本传递给所述目标风险识别模型进行风险识别。
[0032]一种风险识别模型训练装置,包括:
[0033]初始样本获取模块,用于获取初始样本;
[0034]第一去重模块,用于对所述初始样本中的搜索日志进行去重处理,得到各个单词;
[0035]第一排序模块,用于利用关键词典对所述各个单词进行排序,得到排序结果,所述关键词字典是预先建立的,包含有多个单词,且,所述单词的顺序依据单词的重要程度进行设定;
[0036]第一截取模块,用于将所述排序结果按照预设长度截取为至少一个输入文本;
[0037]训练模块,用于将所述至少一个输入文本作为训练样本,对风险识别模型进行训练,得到目标风险识别模型,其中,所述风险识别模型基于Embedding层和Transformer结构进行构建。
[0038]上述的装置,可选的,所述第一排序模块中关键词字典的建立过程包括:
[0039]拼接单元,用于将每一个用户的全部搜索日志拼接,得到拼接文本;
[0040]分词单元,用于对所述拼接文本进行分词,得到各个单词;
[0041]计算单元,用于计算每一个单词对应的高低风险区分度和出现的频数,将所述高
低风险区分度和所述频数的乘积作为该分词的重要性值;
[0042]排序单元,用于对所述各个单词基于重要性值进行排序,得到所述关键词字典。
[0043]上述的装置,可选的,所述训练模块中基于Embedding层和Transformer结构构建风险识别模型,包括:
[0044]训练单元,用于基于预设的训练语料对文本预测模型进行训练,得到目标文本预测模型,其中,所述目标文本训练模型包括:所述Embedding层和所述Transformer结构;
[0045]获取单元,用于当训练完成,获取所述Embedding层和所述Transformer结构;
[0046]构建单元,用于添加风险识别层、基于所述Embedding层、所述Transformer结构和所述风险识别层的顺序构建所述风险识别模型。
[0047]一种用户风险识别装置,包括:
[0048]调用模块,用于在接收到对当前用户的风险识别请求的情况下,调用目标风险识别模型,其中,所述目标风险识别模型基于权利要求1-5任意一项所述训练方法进行训练得到;
[0049]第二去重模块,用于获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种风险识别模型训练方法,其特征在于,包括:获取初始样本;对所述初始样本中的搜索日志进行去重处理,得到各个单词;利用关键词典对所述各个单词进行排序,得到排序结果,所述关键词字典是预先建立的,包含有多个单词,且,所述单词的顺序依据单词的重要程度进行设定;将所述排序结果按照预设长度截取为至少一个输入文本;将所述至少一个输入文本作为训练样本,对风险识别模型进行训练,得到目标风险识别模型,其中,所述风险识别模型基于Embedding层和Transformer结构进行构建。2.根据权利要求1所述的方法,其特征在于,关键词字典的建立过程包括:将每一个用户的全部搜索日志拼接,得到拼接文本;对所述拼接文本进行分词,得到各个单词;计算每一个单词对应的高低风险区分度和出现的频数,将所述高低风险区分度和所述频数的乘积作为该分词的重要性值;对所述各个单词基于重要性值进行排序,得到所述关键词字典。3.根据权利要求2所述的方法,其特征在于,计算每一个单词对应的高低风险区分度,包括:统计搜索过该单词的各个用户的高风险用户的比例H和低风险用户的比例L;获取全部用户中高风险用户的比例H

和低风险用户的比例L

,基于预设公式计算高低风险区分度,其中,R表示高低风险区分度。4.根据权利要求1所述的方法,其特征在于,基于Embedding层和Transformer结构构建风险识别模型,包括:基于预设的训练语料对文本预测模型进行训练,得到目标文本预测模型,其中,所述目标文本训练模型包括:所述Embedding层和所述Transformer结构;当训练完成,获取所述Embedding层和所述Transformer结构;添加风险识别层、基于所述Embedding层、所述Transformer结构和所述风险识别层的顺序构建所述风险识别模型。5.根据权利要求1所述的方法,其特征在于,还包括:获取所述排序结果的长度;在所述长度小于所述预设长度的情况下,将所述排序结果中添加空白向将其补充为所述预设长度。6.一种用户风险识别方法,其特征在于,包括:在接收到对当前用户的风险识别请求的情况下,调用目标风险识别模型,其中,所述目标风险识别模型基于权利要求1-5任意一项所述训练方法进行训练得到;获取所述当前用户的当前搜索日志,对所述当前搜索日志进行去重处理,得到各个当前单词;将所述各个当前单词依据关键词字典进行排序,得到当前排序结果;将所述排序结果按照预设长度...

【专利技术属性】
技术研发人员:刘宏剑杨青
申请(专利权)人:上海优扬新媒信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1