特征提取及模型获取方法、装置、电子设备、介质及产品制造方法及图纸

技术编号:38669131 阅读:9 留言:0更新日期:2023-09-02 22:48
本公开实施例公开了一种特征提取及模型获取方法、装置、电子设备、介质及产品,该方法包括:基于确定各网格区域之间的连接关系以及各网格区域的历史行为特征向量,构建图G(V,A,F),所述图中的节点V表示各网格区域;所述图中的边表示各网格区域之间的连接关系,记为矩阵A;所述图中各节点的特征向量F为各网格区域的历史行为特征向量;基于所述图G(V,A,F)训练编码解码模型得到特征提取模型,所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。该技术方案提取的行为地理位置特征向量可以广泛适用于各种需要输入行为地理位置特征的深度模型或非深度模型中。特征的深度模型或非深度模型中。特征的深度模型或非深度模型中。

【技术实现步骤摘要】
特征提取及模型获取方法、装置、电子设备、介质及产品


[0001]本公开涉及地理数据处理
,具体涉及一种特征提取及模型获取方法、装置、电子设备、介质及产品。

技术介绍

[0002]在网约车平台以及外卖平台当中,地理位置信息是一类非常重要的信息,例如订单的起终点位置信息会影响司机或骑手的接单意愿、可以反映客户对于价格的敏感度,从而影响补贴下发和订单定价等平台关键行为、地理偏好可以影响司机或骑手完单数量(例如由于车牌限行限制、个人意愿等原因有些司机选择在郊区接单,其完单量就会明显小于在城中接单的司机;选择在商圈、学校附近接单的骑手其完单量就会显著高于在住宅区接单的骑手)等。通常在使用该订单的起终点位置信息之前,都会该订单起终点位置信息进行预处理,以便能够在后续的模型中使用。目前有两种处理方式,第一种方式是将该订单起终点位置信息进行one

hot编码,第二种方式是在深度学习模型中加入embedding层来对订单起终点位置信息做编码后使用。但是,第一种方式会由于大量订单的起终点位置信息的稀疏特性带来特征爆炸影响后续的模型效果,第二种方式虽然解决了特征爆炸的问题但同时引入非深度模型无法使用、embedding层的编码结果不具有通用性等问题。

技术实现思路

[0003]为了解决相关技术中的问题,本公开实施例提供一种特征提取模型的获取方法、装置、电子设备、介质及产品。
[0004]第一方面,本公开实施例中提供了一种特征提取模型获取方法。
[0005]具体地,所述特征提取模型获取方法,包括:
[0006]基于预设区域内各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域之间的连接关系;
[0007]基于所述各网格区域内的历史行为数据,确定各网格区域的历史行为特征向量;
[0008]构建图G(V,A,F),其中,所述图中的节点V表示各网格区域;所述图中的边表示各网格区域之间的连接关系,记为矩阵A;所述图中各节点的特征向量F为各网格区域的历史行为特征向量;
[0009]基于所述图G(V,A,F)训练编码解码模型得到特征提取模型,所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。
[0010]结合第一方面,本公开在第一方面的第一种实现方式中,其中,,所述连接关系包括以下至少一种关系:连接方向、连接权重和连接类型。
[0011]结合第一方面及其第一种实现方式,本公开在第一方面的第二种实现方式中,其中,所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域,确定各网格区域的连接关系,包括:
[0012]在所述连接关系包括连接方向时,各网格区域之间的连接方向包括从行为起点所
在的网格区域到行为终点所在的网格区域的方向;
[0013]在所述连接关系包括连接权重时,基于各网格区域之间的历史行为数量确定各网格区域之间的连接权重;
[0014]在所述连接关系包括连接类型时,基于各网格区域之间的历史行为类型确定各格区域之间的连接类型。
[0015]结合第一方面及其上述的各种实现方式,本公开在第一方面的第三种实现方式中,其中,在所述连接关系包括连接方向和连接权重时,所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域,确定各网格区域的连接关系,包括:
[0016]针对第一网格区域,获取行为起点所在区域为第一网格区域的各历史行为中,以第二网格区域为行为终点所在区域的第一历史行为的数量;
[0017]基于所述第一历史行为的数量,获取从所述第一网格区域指向所述第二网格区域的连接方向对应的连接权重,其中,以所述第一网格区域为起点的各连接方向对应的连接权重之和为1。
[0018]结合第一方面及其上述的各种实现方式,本公开在第一方面的第四种实现方式中,其中,在所述连接关系还包括连接类型时,所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域,确定各网格区域的连接关系还包括:
[0019]基于所述第一历史行为的历史行为类型,获取从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型,以及各连接类型对应的第二历史行为的数量;
[0020]基于所述各连接类型以及各连接类型对应的第二历史行为的数量,得到从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型的连接权重。
[0021]结合第一方面及其上述的各种实现方式,本公开在第一方面的第五种实现方式中,其中,所述基于各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域的连接关系,还包括:
[0022]在使网格区域之间存在所述连接关系的历史行为的数量小于预设数量时,确定所述网格区域之间不存在所述连接关系。
[0023]结合第一方面及其上述的各种实现方式,本公开在第一方面的第六种实现方式中,其中,所述基于所述图G(V,A,F)训练编码解码模型得到特征提取模型,包括:
[0024]采用编码解码模型中的编码器对所述图G(V,A,F)进行特征提取,得到各节点的行为地理位置特征向量;
[0025]采用所述编码解码模型中的解码器对所述编码器提取的各节点的行为地理位置特征向量进行反向解码,获得重构图;
[0026]计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数,不断更新所述编码器和所述解码器中的参数,极小化损失函数,得到训练好的编码解码模型中的编码器为特征提取模型。
[0027]结合第一方面及其上述的各种实现方式,本公开在第一方面的第七种实现方式中,其中,所述编码器包括至少一层图注意力机制GAT层;所述解码器包括全连接网络层。
[0028]结合第一方面及其上述的各种实现方式,本公开在第一方面的第八种实现方式中,其中,所述计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数包括:
[0029]计算所述图中各节点的连接权重与所述重构图的各节点的连接权重之间的均方差得到所述编码解码模型的损失函数。
[0030]第二方面,本公开实施例中提供了一种特征提取方法。
[0031]具体地,所述特征提取方法,包括:
[0032]基于预设区域内各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域之间的连接关系;
[0033]基于所述各网格区域内的历史行为数据,确定各网格区域的历史行为特征向量;
[0034]构建图G(V,A,F),其中,所述图中的节点V表示各网格区域;所述图中的边表示各网格区域之间的连接关系,记为矩阵A;所述图中各节点的特征向量F为各网格区域的历史行为特征向量;
[0035]采用编码解码模型中的编码器对所述图G(V,A,F)进行特征提取,得到各节点的行为地理位置特征向量;
[0036]基于所述图G(V,A,F)训练编码解码模型得到特征提取模型,并得到所述特征提取模型提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征提取模型获取方法,包括:基于预设区域内各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域之间的连接关系;基于所述各网格区域内的历史行为数据,确定各网格区域的历史行为特征向量;构建图G(V,A,F),其中,所述图中的节点V表示各网格区域;所述图中的边表示各网格区域之间的连接关系,记为矩阵A;所述图中各节点的特征向量F为各网格区域的历史行为特征向量;基于所述图G(V,A,F)训练编码解码模型得到特征提取模型,所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。2.根据权利要求1所述的方法,其中,所述连接关系包括以下至少一种关系:连接方向、连接权重和连接类型。3.根据权利要求2所述的方法,其中,所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域,确定各网格区域的连接关系,包括:在所述连接关系包括连接方向时,各网格区域之间的连接方向包括从行为起点所在的网格区域到行为终点所在的网格区域的方向;在所述连接关系包括连接权重时,基于各网格区域之间的历史行为数量确定各网格区域之间的连接权重;在所述连接关系包括连接类型时,基于各网格区域之间的历史行为类型确定各格区域之间的连接类型。4.根据权利要求2所述的方法,在所述连接关系包括连接方向和连接权重时,所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域,确定各网格区域的连接关系,包括:针对第一网格区域,获取行为起点所在区域为第一网格区域的各历史行为中,以第二网格区域为行为终点所在区域的第一历史行为的数量;基于所述第一历史行为的数量,获取从所述第一网格区域指向所述第二网格区域的连接方向对应的连接权重,其中,以所述第一网格区域为起点的各连接方向对应的连接权重之和为1。5.根据权利要求4所述的方法,在所述连接关系还包括连接类型时,所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域,确定各网格区域的连接关系还包括:基于所述第一历史行为的历史行为类型,获取从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型,以及各连接类型对应的第二历史行为的数量;基于所述各连接类型以及各连接类型对应的第二历史行为的数量,得到从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型的连接权重。6.根据权利要求1所述的方法,其中,所述基于各历史行为起点所在网格区域和终点所在网格区域,确定各网格区域的连接关系,还包括:在使网格区域之间存在所述连接关系的历史行为的数量小于预设数量时,确定所述网格区域之间不存在所述连接关系。7.根据权利要求1所述的方法,其中,所述基于所述图G(V,A,F)训练编码解码模型得到
特征提取模型,包括:采用编码解码模型中的编码器对所述图G(V,A,F)进行特征提取,得到各节点的行为地理位置特征向量;采用所述编码解码模型中的解码器对所述编码器提取的各节点的行为地理位置特征向量进行反向解码,获得重构图;计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误...

【专利技术属性】
技术研发人员:刘康
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1