当前位置: 首页 > 专利查询>淮阴工学院专利>正文

基于多粒度的冷链配载用户画像构建方法及装置制造方法及图纸

技术编号:36336874 阅读:56 留言:0更新日期:2023-01-14 17:49
本发明专利技术公开了一种基于多粒度的冷链配载用户画像构建方法及装置,先对原始的冷链配载数据集预处理;将预处理后的冷链配载数据集输入到FNet模型中,提取冷链配载数据特征;使用DTM模型、TMKGE模型提取冷链配载数据集中的主题词;对FNet模型提取的结果及DTM模型、TMKGE模型提取到的主题词使用WordNet进行标签相似度计算,根据相似度计算结果扩展补充FNet模型提取结果,完成冷链配载用户画像的标签提取;依据最终标签提取结果,获得模型的标签提取,进而构建冷链配载用户画像。本发明专利技术能够有效地提取数据的动态主题及共享信息,有效地扩展冷链配载数据的标签,解决冷链配载用户画像建模中标签特征不全面的问题。中标签特征不全面的问题。中标签特征不全面的问题。

【技术实现步骤摘要】
基于多粒度的冷链配载用户画像构建方法及装置


[0001]本专利技术属于冷链配载用户画像和多粒度标签扩展
,特别涉及一种基于多粒度的冷链配载用户画像构建方法及装置。

技术介绍

[0002]近年来,画像已成为世界各国研究的特点,正日益引起业界、学术界的广泛关注,更重要的是,它还是众多应用的关键技术之一。
[0003]在现有的画像建模技术中,对如何构建基于多粒度的用户画像的研究相当有限,并且存在如下不足:1、随着冷链配载数据特征的复杂性激增,传统用户画像构建方法难以全面地刻画其特征;2、由于冷链数据的复杂多样性,仅仅依靠现有的词向量表征方法,很难对冷链领域中的专业术语以及其他冷链领域内相关字词的语义进行充分表征,并且存在较大噪声干扰;3、传统用户画像构建方法大部分为静态,忽略了数据为动态变化的特点,导致用户画像没有时效性。
[0004]针对这些问题,本专利技术中的多粒度用户画像构建方法对传统的用户画像构建方法有重要的作用和意义。

技术实现思路

[0005]专利技术目的:针对上述问题,本专利技术提供了一种基于多粒度的冷链配载用户画像构建方法及装置,能够有效地构建多粒度用户画像,解决用户画像建模中用户特征不全面的问题。
[0006]技术方案:本专利技术提出一种基于多粒度的冷链配载用户画像构建方法,包括如下步骤:
[0007]步骤1:输入原始的冷链配载数据集D1,对数据集进行去重、去空,清洗后得到样本集D2;
[0008]步骤2:使用FNet模型,将样本集D2作为模型的输入,提取冷链配载数据特征;
[0009]步骤3:使用DTM模型、TMKGE模型对样本集D2提取主题词;
[0010]步骤4:首先对FNet模型提取的结果及DTM模型、TMKGE模型提取到的主题词使用WordNet进行标签相似度计算;
[0011]步骤5:根据相似度计算结果扩展补充FNet模型提取结果,最后完成冷链配载用户画像的标签提取,获得模型的标签提取,进而构建冷链配载用户画像。
[0012]进一步地,所述步骤1的具体方法为:
[0013]步骤1.1:定义Data为单个待清洗数据,定义id,content分别为数据的序号和内容,并且满足关系Data={id,content};
[0014]步骤1.2:定义D1为待清洗数据集,D1={Data1,Data2,...,Data
a
,...,Data
len(D1)
},Data
a
为D1中第a个待清洗信息数据,其中,len(D1)为D1中数据数量,变量a∈[1,len(D1)];
[0015]步骤1.3:数据集D1中的数据进行去重和去空操作;
[0016]步骤1.4:得到清洗后的数据集D2={D1,D2,...,D
b
,...,D
len(D2)
},D
b
为D2中第b个待处理信息数据,其中,len(D2)为D2中数量,变量b∈[1,len(D2)]。
[0017]进一步地,所述步骤2的具体方法为:
[0018]步骤2.1:样本集D2={D1,D2,...,D
b
,...,D
len(D2)
},将待处理文本内容D
b
固定为统一长度L
max

[0019]步骤2.2:定义循环变量i,且i赋初值为1;
[0020]步骤2.3:如果i≤len(D2)则跳转到步骤2.4,否则跳转到步骤2.10;
[0021]步骤2.4:定义len(D
i
)为文本中第i个文本信息的长度,如果len(D
i
)+2≤L
max
则补0后跳转下一步,否则截取文本前L
max
个单位,跳转下一步;
[0022]步骤2.5:建立预训练模型FNet,将样本集传入FNet模型中,该模型每层都由一个傅立叶混合子层和一个前馈子层组成;
[0023]步骤2.6:对输入的原有样本序列的全部信息进行傅里叶变换;
[0024]步骤2.7:将变换结果输入到前馈子层;
[0025]步骤2.8:获取文本的特征向量T1;
[0026]步骤2.9:i=i+1,跳转到步骤2.3;
[0027]步骤2.10:结束循环,输出全部特征向量序列T1={T1,T2,...,T
c
,...,T
len(T1)
}。
[0028]进一步地,所述步骤3的具体方法为:
[0029]步骤3.1:样本集D2={D1,D2,...,D
b
,...,D
len(D2)
},其中,D
b
包含单词w和实体e,满足关系D
b
={w,e};
[0030]步骤3.2:对样本集D2中的冷链配载数据进行分词处理,得到样本集D3;
[0031]步骤3.3:使用DTM模型提取冷链配载样本集D3中的主题词,得到提取的主题词K1;
[0032]步骤3.4:使用TMKGE模型提取冷链配载样本集D3中的主题词,得到提取的主题词K2;
[0033]步骤3.5:融合DTM模型及TMKGE模型提取到的主题词K1、K2,得到主题词集合K3。
[0034]进一步地,所述步骤4的具体方法为:
[0035]步骤4.1:FNet模型提取到的特征向量序列T1={T1,T2,...,T
c
,...,T
len(T1)
};
[0036]步骤4.2:DTM模型和TMKGE模型融合后的主题词集合K3={K1,K2,,...,K
d
,...,K
len(K3)
};
[0037]步骤4.3:定义循环变量k,且k赋初值为0;
[0038]步骤4.4:如果k<len(T1),则跳转到下一步,否则跳转到步骤4.11;
[0039]步骤4.5:定义循环变量j,且j赋初值为0;
[0040]步骤4.6:如果j<len(K3),则跳转到下一步,否则跳转到步骤4.10;
[0041]步骤4.7:将主题词集合K
j
与FNet模型提取到的特征向量序列T
k
使用WordNet进行标签相似度计算;
[0042]步骤4.8:保留相似度最低的计算结果为R,依据此结果扩展标签集合,增加用户画像的粒度;
[0043]步骤4.9:j=j+1,跳转到步骤4.6;
[0044]步骤4.10:k=k+1,跳转到步骤4.4;
[0045]步骤4.11结束循环,最终依据标签相似度计算结果,得到R={R1,R2,...,R
e
,...,R
len(R)
}。
[0046]进一步地,所述步骤5的具体方法为:...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度的冷链配载用户画像构建方法,其特征在于,包括如下步骤:步骤1:输入原始的冷链配载数据集D1,对数据集进行去重、去空,清洗后得到样本集D2;步骤2:使用FNet模型,将样本集D2作为模型的输入,提取冷链配载数据特征;步骤3:使用DTM模型、TMKGE模型对样本集D2提取主题词;步骤4:首先对FNet模型提取的结果及DTM模型、TMKGE模型提取到的主题词使用WordNet进行标签相似度计算;步骤5:根据相似度计算结果扩展补充FNet模型提取结果,最后完成冷链配载用户画像的标签提取,获得模型的标签提取,进而构建冷链配载用户画像。2.根据权利要求1所述的基于多粒度的冷链配载用户画像构建方法,其特征在于,所述步骤1的具体方法为:步骤1.1:定义Data为单个待清洗数据,定义id,content分别为数据的序号和内容,并且满足关系Data={id,content};步骤1.2:定义D1为待清洗数据集,D1={Data1,Data2,...,Data
a
,...,Data
len(D1)
},Data
a
为D1中第a个待清洗信息数据,其中,len(D1)为D1中数据数量,变量a∈[1,len(D1)];步骤1.3:数据集D1中的数据进行去重和去空操作;步骤1.4:得到清洗后的数据集D2={D1,D2,...,D
b
,...,D
len(D2)
},D
b
为D2中第b个待处理信息数据,其中,len(D2)为D2中数量,变量b∈[1,len(D2)]。3.根据权利要求1所述的基于多粒度的冷链配载用户画像构建方法,其特征在于,所述步骤2的具体方法为:步骤2.1:样本集D2={D1,D2,...,D
b
,...,D
len(D2)
},将待处理文本内容D
b
固定为统一长度L
max
;步骤2.2:定义循环变量i,且i赋初值为1;步骤2.3:如果i≤len(D2)则跳转到步骤2.4,否则跳转到步骤2.10;步骤2.4:定义len(D
i
)为文本中第i个文本信息的长度,如果len(D
i
)+2≤L
max
则补0后跳转下一步,否则截取文本前L
max
个单位,跳转下一步;步骤2.5:建立预训练模型FNet,将样本集传入FNet模型中,该模型每层都由一个傅立叶混合子层和一个前馈子层组成;步骤2.6:对输入的原有样本序列的全部信息进行傅里叶变换;步骤2.7:将变换结果输入到前馈子层;步骤2.8:获取文本的特征向量T1;步骤2.9:i=i+1,跳转到步骤2.3;步骤2.10:结束循环,输出全部特征向量序列T1={T1,T2,...,T
c
,...,T
len(T1)
}。4.根据权利要求1所述的基...

【专利技术属性】
技术研发人员:李翔张宁任柯孙纪舟肖绍章朱全银周泓谢乾陈帅徐伟杨秋实洪玉昆费晶茹张曼
申请(专利权)人:淮阴工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1