当前位置: 首页 > 专利查询>度小满科技专利>正文

获取用户分类模型的方法技术

技术编号:39503106 阅读:8 留言:0更新日期:2023-11-24 11:34
本申请提供了一种获取用户分类模型的方法

【技术实现步骤摘要】
获取用户分类模型的方法、用户分类方法及相关装置


[0001]本专利技术涉及计算机
,尤其涉及一种获取用户分类模型的方法

用户分类方法及相关装置


技术介绍

[0002]目前,企业或者有关机构能够通过用户针对其自身业务记录的浏览数据来了解并评估用户的浏览习惯以及浏览喜好,以便确定用户的类别,并以此向用户提供定制化服务

[0003]相关技术中,在用户浏览数据中搜索预设关键词词表中的关键词,然后根据关键词在用户浏览数据中的出现频率,确定用户的类别,然而,当用户浏览数据的信息量较少时
(
例如,长期未浏览
)
,基于上述方式所确定出的用户的类别的准确性通常不高,且上述方式通常还需要相关人员依据实际业务需求手动维护创建的关键词词表,如此会导致用户分类的成本较高


技术实现思路

[0004]本申请提供一种获取用户分类模型的方法

用户分类方法及相关装置,用于提升用户分类的准确性并降低成本

[0005]第一方面,本申请提供一种获取用户分类模型的方法,包括:
[0006]获取预设时间段内至少一个用户各自的原始浏览数据,每个原始浏览数据至少包括:相应用户在所述预设时间段内浏览的各原始文本,以及各原始文本各自的浏览时间;
[0007]基于每一原始文本中文本元素确定其针对相应原始浏览数据的相似浏览频率,并基于各原始浏览数据及获得的各相似浏览频率,获得至少一个样本浏览数据,每个样本浏览数据用于:表征相应一个用户的浏览喜好;
[0008]采用至少一个样本浏览数据对预设分类模型进行多轮迭代训练,直至满足预设训练条件,获得训练好的用户分类模型,在一轮训练中,执行以下操作:采用所述分类模型,基于一个用户的样本浏览数据,预测所述一个用户的类别,并基于所述类别,对所述分类模型的模型参数进行调整

[0009]第二方面,本申请提供一种用户分类的方法,包括:
[0010]获取目标用户在预设时间段内的目标浏览数据,所述目标浏览数据至少包括:目标用户在所述预设时间段内浏览的各目标文本,各目标文本各自的浏览时间以及各目标文本各自针对所述目标浏览数据的相似浏览频率,其中,每一相似浏览频率是通过相应一个目标文本中文本元素确定的;
[0011]将所述目标浏览数据输入训练好的用户分类模型,获得所述用户分类模型基于所述目标浏览数据预测的所述目标用户的类别,其中,所述用户分类模型基于如上述第一方面任一所述的方法获得

[0012]第三方面,本申请提供一种获取用户分类模型的装置,包括:
[0013]第一获取模块,用于获取预设时间段内至少一个用户各自的原始浏览数据,每个
原始浏览数据至少包括:相应用户在所述预设时间段内浏览的各原始文本,以及各原始文本各自的浏览时间;
[0014]第二获取模块,用于基于每一原始文本中文本元素确定其针对相应原始浏览数据的相似浏览频率,并基于各原始浏览数据及获得的各相似浏览频率,获得至少一个样本浏览数据,每个样本浏览数据用于:表征相应一个用户的浏览喜好;
[0015]模型训练模块,用于采用至少一个样本浏览数据对预设分类模型进行多轮迭代训练,直至满足预设训练条件,获得训练好的用户分类模型,在一轮训练中,执行以下操作:采用所述分类模型,基于一个用户的样本浏览数据,预测所述一个用户的类别,并基于所述类别,对所述分类模型的模型参数进行调整

[0016]在一种实施方式中,所述基于各原始浏览数据及获得的各相似浏览频率,获得至少一个样本浏览数据,所述第二获取模块用于:
[0017]针对各原始浏览数据,分别执行以下操作:
[0018]从各原始文本中,选取满足预设文本条件的至少一个候选文本,并获取与所述至少一个候选文本相关联的多个补充数据;
[0019]基于所述多个补充数据

所述一个原始浏览数据及其相应各原始文本各自的相似浏览频率,获得一个样本浏览数据

[0020]在一种实施方式中,所述获取与所述至少一个候选文本相关联的多个补充数据,所述第二获取模块用于执行以下方式中的任一种或组合:
[0021]基于预设同义词词表,对一个候选文本中关键词进行同义词替换,并将获得的相应同义词替换文本,作为与所述一个候选文本相关联的一个补充数据;
[0022]采用预设第一翻译器,对一个候选文本进行语言转换,并采用预设第二翻译器,对相应转换文本进行逆转换,以及将获得的相应回译文本,作为与所述一个候选文本相关联的一个补充数据;
[0023]在一个候选文本中插入各补充词,并将获得的相应补充插入文本,作为与所述一个候选文本相关联的一个补充数据,其中,所述各补充词是通过所述同义词词表或所述一个候选文本获得的;
[0024]将一个候选文本输入预设第一语言表征模型,通过所述第一语言表征模型基于所述一个候选文本进行文本掩盖,获得各表征文本,并将各表征文本,分别作为与所述一个候选文本相关联的补充数据;
[0025]将一个候选文本输入预设第二语言表征模型,通过所述第二语言表征模型基于所述一个候选文本进行文本编码,获得各表征向量,并将各表征向量,分别作为与所述一个候选文本相关联的补充数据

[0026]在一种实施方式中,所述采用所述分类模型,基于一个用户的样本浏览数据,预测所述一个用户的类别,所述模型训练模块用于:
[0027]采用所述分类模型,基于所述预设时间段内各目标时间段,确定一个用户的样本浏览数据中各样本浏览子集,并基于各样本浏览子集各自对应的嵌入表示,提取所述一个用户的目标浏览特征,每一嵌入表示至少关联:相应样本浏览子集中各原始文本

各浏览时间以及各相似浏览频率;
[0028]采用所述分类模型,基于所述目标浏览特征,预测所述一个用户的类别

[0029]在一种实施方式中,所述分类模型是通过
FLASH
模型架构搭建的,所述基于各样本浏览子集各自对应的嵌入表示,提取所述一个用户的目标浏览特征,所述模型训练模块用于:
[0030]采用所述分类模型,基于各样本浏览子集各自对应的嵌入表示,获得线性变换矩阵,并基于所述线性变换矩阵进行特征提取,获得所述一个用户的目标浏览特征,其中,所述线性变换矩阵是通过仿射变换获得的

[0031]第四方面,本申请提供一种用户分类装置,包括:
[0032]数据获取模块,用于获取目标用户在预设时间段内的目标浏览数据,所述目标浏览数据至少包括:目标用户在所述预设时间段内浏览的各目标文本,各目标文本各自的浏览时间以及每一目标文本针对所述目标浏览数据的相似浏览频率,每一相似浏览频率通过相应一个目标文本中文本元素确定;
[0033]模型分类模块,用于将所述目标浏览数据输入训练好的用户分类模型,获得所述用户分类模型基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种获取用户分类模型的方法,其特征在于,包括:获取预设时间段内至少一个用户各自的原始浏览数据,每个原始浏览数据至少包括:相应用户在所述预设时间段内浏览的各原始文本,以及各原始文本各自的浏览时间;基于每一原始文本中文本元素确定其针对相应原始浏览数据的相似浏览频率,并基于各原始浏览数据及获得的各相似浏览频率,获得至少一个样本浏览数据,每个样本浏览数据用于:表征相应一个用户的浏览喜好;采用至少一个样本浏览数据对预设分类模型进行多轮迭代训练,直至满足预设训练条件,获得训练好的用户分类模型,在一轮训练中,执行以下操作:采用所述分类模型,基于一个用户的样本浏览数据,预测所述一个用户的类别,并基于所述类别,对所述分类模型的模型参数进行调整
。2.
如权利要求1所述的方法,其特征在于,所述基于各原始浏览数据及获得的各相似浏览频率,获得至少一个样本浏览数据,包括:针对各原始浏览数据,分别执行以下操作:从各原始文本中,选取满足预设文本条件的至少一个候选文本,并获取与所述至少一个候选文本相关联的多个补充数据;基于所述多个补充数据

所述一个原始浏览数据及其相应各原始文本各自的相似浏览频率,获得一个样本浏览数据
。3.
如权利要求2所述的方法,其特征在于,所述获取与所述至少一个候选文本相关联的多个补充数据,包括以下方式中的任一种或组合:基于预设同义词词表,对一个候选文本中关键词进行同义词替换,并将获得的相应同义词替换文本,作为与所述一个候选文本相关联的一个补充数据;采用预设第一翻译器,对一个候选文本进行语言转换,并采用预设第二翻译器,对相应转换文本进行逆转换,以及将获得的相应回译文本,作为与所述一个候选文本相关联的一个补充数据;在一个候选文本中插入各补充词,并将获得的相应补充插入文本,作为与所述一个候选文本相关联的一个补充数据,其中,所述各补充词是通过所述同义词词表或所述一个候选文本获得的;将一个候选文本输入预设第一语言表征模型,通过所述第一语言表征模型基于所述一个候选文本进行文本掩盖,获得各表征文本,并将各表征文本,分别作为与所述一个候选文本相关联的补充数据;将一个候选文本输入预设第二语言表征模型,通过所述第二语言表征模型基于所述一个候选文本进行文本编码,获得各表征向量,并将各表征向量,分别作为与所述一个候选文本相关联的补充数据
。4.
如权利要求1‑3任一项所述的方法,其特征在于,所述采用所述分类模型,基于一个用户的样本浏览数据,预测所述一个用户的类别,包括:采用所述分类模型,基于所述预设时间段内各目标时间段,确定一个用户的样本浏览数据中各样本浏览子集,并基于各样本浏览子集各自对应的嵌入表示,提取所述一个用户的目标浏览特征,每一嵌入表示至少关联:相应样本浏览子集中各原始文本

各浏览时间以及各相似浏览频率;
采用所述分类模型,基于所述目标浏览特征,预测所述一个用户的类别
。5.
如权利要求4所述的方法,其特征在于,所述分类模型是通过
FLASH
模型架构搭建的,所述基于各样本浏览子集各自对应的嵌入表示,提取所述一个用户的目标浏览特征,包括:采用所述分类...

【专利技术属性】
技术研发人员:谭金源吕喆朋杨青
申请(专利权)人:度小满科技
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1