货物类型的特征表示方法、系统、电子设备和存储介质技术方案

技术编号:24687331 阅读:67 留言:0更新日期:2020-06-27 09:02
本发明专利技术涉及数据处理技术领域,提供一种货物类型的特征表示方法、系统、电子设备和存储介质。其中方法包括:以对货物的关联操作行为对应的货物类型为数据序列,生成多组第一数据序列;在第一数据序列中对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;根据第二数据序列,以货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建图结构;在图结构中随机游走生成多组第三数据序列,根据第三数据序列训练向量模型,并根据向量模型获得每个货物类型的特征向量。本发明专利技术为货物类型的描述提供通用的特征表示方式,使生成的特征向量在车货匹配场景下为相似货物类型的合理估计提供数据基础。

Characteristic representation method, system, electronic equipment and storage medium of goods type

【技术实现步骤摘要】
货物类型的特征表示方法、系统、电子设备和存储介质
本专利技术涉及数据处理
,具体地说,涉及一种货物类型的特征表示方法、系统、电子设备和存储介质。
技术介绍
在物流平台,车货匹配场景中常需要对货物类型进行描述。例如,司机搜索货源时,选定某一类货物类型,则系统可以为司机推荐符合该货物类型及其相似货物类型的货源。高效的车货匹配可以帮助用户快速获得所需信息,提升市场效率。现有技术中,通过统计分析的方法,得到基于司机、城市、路线等维度的货物类型的离散分布。在车货匹配场景下通过查询货物类型键值得到相应的分数,实现车货匹配。但是,随着车货匹配场景的升级,货物类型的描述愈发精细。过去使用的货物类型只有几十种,最新的分层级货物类型条目数量极大膨胀,已扩展到包含一级类目几十种、二级类目几百种,因此需要对货物类型的描述进行改进。然而,现有的货物类型都是基于独热编码,各个货物类型在向量空间上相互正交,因此无泛化能力、无法自动估计不同货物类型间的关联程度。尤其在分层级类目的货物类型体系下,随着类目数量膨胀,每个货物类型下的有效统计量变少且不同货物类型之间的分布不均衡程度变大。再加上分层级类目的货物类型体系中未填类目占据更多的比重,使有效货物类型相对不均衡程度更加增大,导致货物类型的分布倾斜加剧,系统无法在车货匹配场景下自动估计货物类型的相关程度的问题更加突出。需要说明的是,在上述
技术介绍
部分申请的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
>有鉴于此,本专利技术提供一种货物类型的特征表示方法、系统、电子设备和存储介质,为货物类型的描述提供通用的特征表示方式,使生成的特征向量在车货匹配场景下为相似货物类型的合理估计提供数据基础。本专利技术的一个方面提供一种货物类型的特征表示方法,包括步骤:自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列;在每组所述第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;根据各所述第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构;以及在所述图结构中随机游走生成多组第三数据序列,根据各所述第三数据序列训练向量模型,并根据所述向量模型获得每个货物类型的特征向量。在一些实施例中,所述对货物的操作行为数据包括对货物的点击行为数据和对货物的电话行为数据;所述对部分操作行为对应的货物类型进行上采样的步骤中,对所述电话行为数据对应的货物类型进行上采样。在一些实施例中,所述对所述电话行为数据对应的货物类型进行上采样的步骤包括:在每组所述第一数据序列中,确定电话行为数据对应的货物类型;以所述电话行为数据对应的货物类型及该货物类型的前一货物类型为一组采样数据,在该货物类型及其后一货物类型之间插入多组所述采样数据。在一些实施例中,所述对默认货物类型进行下采样的步骤包括:在每组所述第一数据序列中,确定默认货物类型,所述默认货物类型是数值等于预设值的货物类型;对所述默认货物类型进行一次随机选择,保留所述一次随机选择选中的默认货物类型。在一些实施例中,所述对默认货物类型进行下采样的步骤还包括:在每组所述第一数据序列中,对保留的所述默认货物类型进行二次随机选择,获取所述二次随机选择选中的默认货物类型的货源地;根据各货源地的货物类型的分布,对所述二次随机选择选中的默认货物类型进行替换。在一些实施例中,所述根据两货物类型的关联次数获得对应节点的边权重的步骤包括:以各组所述第二数据序列中每相邻两货物类型为一组关联数据;计算各组所述关联数据在相同起点的所有组关联数据中的概率,其中一组关联数据中前一货物类型为该组关联数据的起点;以每组所述关联数据的概率作为该组所述关联数据中前一货物类型对应的节点指向后一货物类型对应的节点的边的边权重。在一些实施例中,所述在所述图结构中随机游走生成多组第三数据序列的步骤中,采用DeepWalk算法,通过随机游走生成多组定长的第三数据序列;所述根据各所述第三数据序列训练向量模型的步骤中,采用Word2vec算法,将各所述第三数据序列作为训练数据训练所述向量模型。在一些实施例中,所述对货物的操作行为数据自司机账号的行为日志中获得;所述以关联操作行为对应的货物类型为数据序列的步骤中,以一司机账号对应的操作行为一组关联操作行为。在一些实施例中,所述生成货物类型的多组第一数据序列的步骤包括:将每个司机账号对应的操作行为按时间戳先后顺序拼接成一组操作行为数据序列;根据每个操作行为指向的货物的货物类型,将各组所述操作行为数据序列转化成货物类型的原始数据序列;在每组所述原始数据序列中,对连续相同的货物类型进行去重,形成每相邻货物类型不同的第一数据序列。本专利技术的另一个方面提供一种货物类型的特征表示系统,包括:第一数据处理模块,用于自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列;第二数据处理模块,用于在每组所述第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;图结构构建模块,用于根据各所述第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构;以及特征向量生成模块,用于在所述图结构中随机游走生成多组第三数据序列,根据各所述第三数据序列训练向量模型,并根据所述向量模型获得每个货物类型的特征向量。本专利技术的又一个方面提供一种电子设备,包括:处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意实施例所述的货物类型的特征表示方法的步骤。本专利技术的再一个方面提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述任意实施例所述的货物类型的特征表示方法的步骤。本专利技术与现有技术相比的有益效果至少包括:本专利技术针对车货匹配场景的业务特点,在构建货物类型的图结构之前,对货物类型的原始数据进行处理,基于关联操作行为对应的第一数据序列生成克服货物类型粒度过细和分布倾斜的第二数据序列,并基于第二数据序列构建图结构,对货物类型进行特征表示;本专利技术为货物类型的描述提供了通用的,具有更强泛化能力的特征表示方式,解决因车货匹配场景下因货物类型的分层类目逐渐细化导致现行方案无法对相似货物类型进行合理估计的缺陷;本专利技术生成的特征向量在车货匹配场景下为相似货物类型的合理估计提供数据基础,通过自动估计货物类型的相关程度来缓解货物类型粒度过细和分布倾斜加剧的问题。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人本文档来自技高网...

【技术保护点】
1.一种货物类型的特征表示方法,其特征在于,包括步骤:/n自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列;/n在每组所述第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;/n根据各所述第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构;以及/n在所述图结构中随机游走生成多组第三数据序列,根据各所述第三数据序列训练向量模型,并根据所述向量模型获得每个货物类型的特征向量。/n

【技术特征摘要】
1.一种货物类型的特征表示方法,其特征在于,包括步骤:
自对货物的操作行为数据中,以关联操作行为对应的货物类型为数据序列,生成货物类型的多组第一数据序列;
在每组所述第一数据序列中,对部分操作行为对应的货物类型进行上采样,对默认货物类型进行下采样,生成多组第二数据序列;
根据各所述第二数据序列,以各货物类型为节点,根据两货物类型的关联次数获得对应节点的边权重,构建货物类型的图结构;以及
在所述图结构中随机游走生成多组第三数据序列,根据各所述第三数据序列训练向量模型,并根据所述向量模型获得每个货物类型的特征向量。


2.如权利要求1所述的特征表示方法,其特征在于,所述对货物的操作行为数据包括对货物的点击行为数据和对货物的电话行为数据;以及
所述对部分操作行为对应的货物类型进行上采样的步骤中,对所述电话行为数据对应的货物类型进行上采样。


3.如权利要求2所述的特征表示方法,其特征在于,所述对所述电话行为数据对应的货物类型进行上采样的步骤包括:
在每组所述第一数据序列中,确定电话行为数据对应的货物类型;以及
以所述电话行为数据对应的货物类型及该货物类型的前一货物类型为一组采样数据,在该货物类型及其后一货物类型之间插入多组所述采样数据。


4.如权利要求1所述的特征表示方法,其特征在于,所述对默认货物类型进行下采样的步骤包括:
在每组所述第一数据序列中,确定默认货物类型,所述默认货物类型是数值等于预设值的货物类型;以及
对所述默认货物类型进行一次随机选择,保留所述一次随机选择选中的默认货物类型。


5.如权利要求4所述的特征表示方法,其特征在于,所述对默认货物类型进行下采样的步骤还包括:
在每组所述第一数据序列中,对保留的所述默认货物类型进行二次随机选择,获取所述二次随机选择选中的默认货物类型的货源地;以及
根据各货源地的货物类型的分布,对所述二次随机选择选中的默认货物类型进行替换。


6.如权利要求1所述的特征表示方法,其特征在于,所述根据两货物类型的关联次数获得对应节点的边权重的步骤包括:
以各组所述第二数据序列中每相邻两货物类型为一组关联数据;
计算各组所述关联数据在相同起点的所有组关联数据中的概率,其中一组关联数据中前一货物类型为该组关联数据的起点;以及
以每组所述关联数据的概率...

【专利技术属性】
技术研发人员:李轩增
申请(专利权)人:江苏满运软件科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1