【技术实现步骤摘要】
适用于筛选特定用户的方法、模型训练方法、介质和设备
[0001]本专利技术涉及人工智能领域,具体涉及一种适用于筛选特定用户的方法、模型训练方法、存储介质和电子设备。
技术介绍
[0002]聊天记录中包含了大量的信息,通过聊天信息可以挖掘用户的一些属性信息,如是否是某一类目标特定用户。目前,识别特定用户多采用人工查看聊天记录的方式进行判断,费时费力,成本巨大。随着目前人工智能的突飞猛进,特别是自然语言处理的巨大进步,利用计算机自动化发现特定用户变得具有根据现实的意义。
[0003]其中,文本分类是人工智能领域中的重要一项,文本分类是指用计算机对文本信息按照一定的分类标准进行自动的分类标记。随着互联网的发展,信息量爆炸式增长,人工标注数据已经变得耗时、质量低下,且容易受标注人主观意识的影响。因此,利用机器自动化的实现对文本的标注变得具有现实意义,将重复且枯燥的文本标注任务交由计算机进行处理能够有效克服以上问题,同时所标注的数据具有一致性、高质量等特点。文本分类的应用场景众多,包括了词性标注、情感分析、意图识别、主题分类、 ...
【技术保护点】
【技术特征摘要】
1.一种适用于筛选特定用户的模型训练方法,其特征在于,所述方法包括以下步骤:获取聊天样本数据,将所述聊天样本数据分别输入训练模型,所述聊天样本数据包括聊天消息样本数据和发送聊天信息的用户标识,所述训练模型包括一级学习器,所述一级学习器包括BERT模型、ROBERTA模型、ERNIE模型、ELECTRA模型以及ALBERT模型中的至少两项;采用所述聊天样本数据对所述训练模型进行训练,判断所述聊天消息样本数据的用户标识为特定用户标识的概率并输出;采用预定策略对所有模型输出的概率进行计算,得到最终计算结果,所述最终计算结果包括各个用户标识为特定用户标识的最终概率。2.如权利要求1所述的适用于筛选特定用户的模型训练方法,其特征在于,所述采用预定策略对所有模型输出的概率进行计算,输出最终计算结果包括:获取各个训练模型的权重影响因子;基于所述各个训练模型的权重影响因子对所有模型输出的概率进行加权运算,得到最终计算结果。3.如权利要求1所述的适用于筛选特定用户的模型训练方法,其特征在于,所述训练模型还包括二级学习器,所述聊天样本数据依照用户标识类型分为正样本数据和负样本数据;所述采用所述聊天样本数据对所述训练模型进行训练还包括:获取一部分所述正样本数据和一部分所述负样本数据,得到第一训练数据集,将所述第一训练集输入到每一个所述一级学习器进行训练,得到若干预测正样本数据;所述采用预定策略对所有模型输出的概率进行计算,得到最终计算结果包括:将所述预测正样本数据和所述第一训练数据集合并,得到第二训练数据集,并将所述第二训练数据集输入所述二级学习器进行训练,直至所述二级学习器能识别出的负样本数据的占比超过预设比例,得到预测结果;基于所述二级学习器得到预测结果后对应的模型权重对所有模型输出的概率进行运算,得到最终计算结果。4.如权利要求3所述的适用于筛选特定用户的模型训练方法,其特征在于,所述一级学习器为BERT模型、ROBERTA模型、ERNIE模型和ELECTRA模型,所述二...
【专利技术属性】
技术研发人员:陈鹏鹄,
申请(专利权)人:福建宏创科技信息有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。