双塔神经网络模型的训练方法、相似度的确定方法技术

技术编号：39297252 阅读：11 留言：0更新日期：2023-11-07 11:05

本申请涉及一种双塔神经网络模型的训练方法、相似度的确定方法，其中，双塔神经网络模型的训练方法包括：构造训练集，其中，训练集中包括多组用户特征，每一组用户特征中包括构成正样本对所对应的至少两个用户特征以及构成负样本对所对应的至少两个用户特征，正样本对中的用户特征为同一类型的相同用户特征，所述负样本对中的用户特征为所述同一类型的不同用户特征；基于训练集对双塔神经网络模型进行训练，以使神经网络模型的损失值小于预设阈值。本申请实施例中的双塔神经网络模型不仅能够适应户转化行为较为稀疏的保险场景，还能够适应不同任务下相似度的计算需求，满足了在不用应用场景下相似度计算需求。用应用场景下相似度计算需求。用应用场景下相似度计算需求。

全部详细技术资料下载

【技术实现步骤摘要】
双塔神经网络模型的训练方法、相似度的确定方法

[0001]本申请涉及计算机领域，尤其涉及一种双塔神经网络模型的训练方法、相似度的确定方法。

技术介绍

[0002]目前对于相似度的计算，通常是通过人工筛选出特定特征组合来确定用户之间的相似度。但人工筛选的方案只能筛选出指定特征组合的用户，且用户间相似度不可比，无法满足当前复杂场景下的相似度计算需求。

技术实现思路

[0003]本申请提供了一种双塔神经网络模型的训练方法、相似度的确定方法，以解决现有技术中通过人工筛选出特定特征组合来确定用户之间的相似度，导致无法满足当前复杂场景下的相似度计算需求。
[0004]第一方面，本申请提供了一种一种双塔神经网络模型的训练方法，构造训练集，其中，所述训练集中包括多组用户特征，每一组用户特征中包括构成正样本对所对应的至少两个用户特征以及构成负样本对所对应的至少两个用户特征，所述正样本对中的用户特征为同一类型的相同用户特征，所述负样本对中的用户特征为所述同一类型的不同用户特征；所述用户特征包括所述用户的属性信息，以及用户与保险业务关联的行为特征；基于所述训练集对双塔神经网络模型进行训练，以使所述神经网络模型的损失值小于预设阈值，其中，在基于所述训练集对双塔神经网络模型进行训练的过程中，是将同一组正样本对和负样本对中的主用户特征输入双塔神经网络模型的主塔模型中，将同一组正样本对和负样本对中的副用户特征输入双塔神经网络模型的副塔模型中。
[0005]第二方面，本申请提供了一种基于双塔神经网络模型进行相似度的确...

【技术保护点】

【技术特征摘要】
1.一种双塔神经网络模型的训练方法，其特征在于，构造训练集，其中，所述训练集中包括多组用户特征，每一组用户特征中包括构成正样本对所对应的至少两个用户特征以及构成负样本对所对应的至少两个用户特征，所述正样本对中的用户特征为同一类型的相同用户特征，所述负样本对中的用户特征为所述同一类型的不同用户特征；所述用户特征包括所述用户的属性信息，以及用户与保险业务关联的行为特征；基于所述训练集对双塔神经网络模型进行训练，以使所述神经网络模型的损失值小于预设阈值，其中，在基于所述训练集对双塔神经网络模型进行训练的过程中，是将同一组正样本对和负样本对中的主用户特征输入双塔神经网络模型的主塔模型中，将同一组正样本对和负样本对中的副用户特征输入双塔神经网络模型的副塔模型中。2.根据权利要求1所述的方法，其特征在于，所述构造训练集包括：对于保险业务关联的用户行为特征和用户属性信息进行采样，得到采样结果；其中，所述采样结果中包括多个用户特征，每一个用户特征中所包括的行为特征的数量为多个；基于所述多个用户特征构造所述每一组用户特征，其中，所述每一组用户特征中的所述正样本对为具有同一行为结果的目标行为特征的两个用户特征和/或具有相同目标属性信息的两个用户特征的样本对，所述负样本对为具有不同行为结果的所述目标行为特征的两个用户特征和/或具有不同所述目标属性信息的两个用户特征的样本对；所述目标行为特征为多个所述行为特征中的任一行为特征，所述目标属性信息为所述用户的属性信息中的任一种；将所述正样本对和所述负样本对中均出现的用户所对应的用户特征确定为所述主用户特征，将所述正样本对和所述负样本对中除所述主用户特征外的用户特征确定为所述副用户特征；将所述正样本对和所述负样本对确定为一组样本对，基于多组样本对构造所述多组用户特征，以得到所述训练集。3.根据权利要求2所述的方法，其特征在于，将所述正样本对和所述负样本对确定为一组样本对，基于多组样本对所对应的用户特征构造所述训练集包括：为具有同一行为结果的行为特征设置对应的第一权重，其中，所述同一行为结果的行为特征为多个不同类型的行为特征中的任一行为特征；确定具有相同区间范围的属性信息，并设置所述属性信息的第二权重，其中，一个或多个所述第一权重与一个或多个第二权重的和值为1；基于所述第一权重和所述第二权重对多组样本对所对应的用户特征进行采样，得到所述训练集。4.根据权利要求2所述的方法，其特征在于，所述双塔神经网络模型的损失函数公式为：其中，L表示损失值；w(u1)表示用户1所对应的用户特征u1输入双塔神经网模型的主塔模型后输出的特征向量，w(u2)表示用户2所对应的用户特征u2输入双塔神经网模型的副塔模型后输出的特征向量，w(u3)表示用户3所对应的用户特征u3输入双塔神经网模型的副塔
模型后输出的特征向量；u1与u2为正样本对，u1与u3为负样本对。5.根据权利要求4所述的方法，其特征在于，通过以下公式确定所述损失函数的收敛速度：C＝b/(1+alog N(f))其中，所述C用于表示收敛速度，a和b为常数，N(f)表示当前来自用户特征f的采样来源的样本对数量；所述用户特征f为用户的任一用户特征。6.一种基于双塔神经网络模型进行相似度的确定方法，其特征在于，包括：将第一保险用户的第一用户特征输入双塔神经网络模型中的主塔模型，输出第一用户特征向量；将第二保险用户的第二用户...

【专利技术属性】
技术研发人员：张懿，
申请(专利权)人：微民保险代理有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人