风险识别模型训练方法、用户风险识别方法及相关装置制造方法及图纸

技术编号：27217949 阅读：16 留言：0更新日期：2021-02-04 11:35

本发明专利技术公开了一种风险识别模型训练方法、用户风险识别方法及相关装置，该训练方法包括：对初始样本中的搜索日志进行去重处理，利用关键词典对各个单词进行排序，关键词字典是依据单词的重要程度设定的；将排序结果按照预设长度截取为至少一个输入文本；将至少一个输入文本作为训练样本，对风险识别模型进行训练，得到目标风险识别模型。上述方法，训练样本是对搜索日志经过去重，将得到各个单词依据关键词字典进行排序，并截取为预设长度得到的，相较于接拼接方式缩短了训练样本的长度，提高了训练效率，即便进行了截取，由于训练样本是基于关键词字典进行排序的，也会保留了重要程度较高的分词，同时也保证了训练的准确率。同时也保证了训练的准确率。同时也保证了训练的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
风险识别模型训练方法、用户风险识别方法及相关装置

[0001]本专利技术涉及数据处理
，尤其涉及一种风险识别模型训练方法、用户风险识别方法及相关装置。

技术介绍

[0002]针对每一个用户，基于网络进行信息搜索时，会产生大量的搜索日志，搜索日志通常以文本的形式存在，利用上述文本可以对用户风险进行识别，在现有的风险识别过程中，首先基于TextCNN、LSTM和预训练神经网络等方法构建模型进行训练，得到风险识别模型，基于风险识别模型进行风险识别，其中，针对TextCNN模型的训练过程包括：将用户搜索日志拼接成一条长文本，利用TextCNN神经网络，针对用户的风险标签进行训练。针对LSTM模型的训练过程包括：将用户搜索日志拼接成一条长文本，利用这种带长短期记忆的RNN神经网络，针对用户的风险标签进行训练。针对预训练神经网络模型的训练过程包括：将用户搜索日志拼接成一条长文本，使用大规模语料训练得到预训练神经网络，针对用户的风险标签进行微调。
[0003]但是，目前利用神经网络对于长文本输入处理的时间较长，而且识别效果差，因此，上述训练得到的神经网络模型的准确率和效率都无法达到较高要求，直接影响到用户风险识别过程。

技术实现思路

[0004]有鉴于此，本专利技术提供了一种风险识别模型训练方法、用户风险识别方法及相关装置，用以解决目前利用神经网络对于长文本输入处理的时间较长，而且识别效果差，因此，上述训练得到的神经网络模型的准确率和效率都无法达到较高要求，直接影响到用户风险识别过程的问题。具体方案如...

【技术保护点】

【技术特征摘要】
1.一种风险识别模型训练方法，其特征在于，包括：获取初始样本；对所述初始样本中的搜索日志进行去重处理，得到各个单词；利用关键词典对所述各个单词进行排序，得到排序结果，所述关键词字典是预先建立的，包含有多个单词，且，所述单词的顺序依据单词的重要程度进行设定；将所述排序结果按照预设长度截取为至少一个输入文本；将所述至少一个输入文本作为训练样本，对风险识别模型进行训练，得到目标风险识别模型，其中，所述风险识别模型基于Embedding层和Transformer结构进行构建。2.根据权利要求1所述的方法，其特征在于，关键词字典的建立过程包括：将每一个用户的全部搜索日志拼接，得到拼接文本；对所述拼接文本进行分词，得到各个单词；计算每一个单词对应的高低风险区分度和出现的频数，将所述高低风险区分度和所述频数的乘积作为该分词的重要性值；对所述各个单词基于重要性值进行排序，得到所述关键词字典。3.根据权利要求2所述的方法，其特征在于，计算每一个单词对应的高低风险区分度，包括：统计搜索过该单词的各个用户的高风险用户的比例H和低风险用户的比例L；获取全部用户中高风险用户的比例H
’
和低风险用户的比例L
’
，基于预设公式计算高低风险区分度，其中，R表示高低风险区分度。4.根据权利要求1所述的方法，其特征在于，基于Embedding层和Transformer结构构建风险识别模型，包括：基于预设的训练语料对文本预测模型进行训练，得到目标文本预测模型，其中，所述目标文本训练模型包括：所述Embedding层和所述Transformer结构；当训练完成，获取所述Embedding层和所述Transformer结构；添加风险识别层、基于所述Embedding层、所述Transformer结构和所述风险识别层的顺序构建所述风险识别模型。5.根据权利要求1所述的方法，其特征在于，还包括：获取所述排序结果的长度；在所述长度小于所述预设长度的情况下，将所述排序结果中添加空白向将其补充为所述预设长度。6.一种用户风险识别方法，其特征在于，包括：在接收到对当前用户的风险识别请求的情况下，调用目标风险识别模型，其中，所述目标风险识别模型基于权利要求1-5任意一项所述训练方法进行训练得到；获取所述当前用户的当前搜索日志，对所述当前搜索日志进行去重处理，得到各个当前单词；将所述各个当前单词依据关键词字典进行排序，得到当前排序结果；将所述排序结果按照预设长度...

【专利技术属性】
技术研发人员：刘宏剑，杨青，
申请(专利权)人：上海优扬新媒信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人