System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于BERT语言模型的货运停留热点序列推断方法技术_技高网

一种基于BERT语言模型的货运停留热点序列推断方法技术

技术编号:42659557 阅读:27 留言:0更新日期:2024-09-10 12:18
本发明专利技术公开了一种基于BERT语言模型的货运停留热点序列推断方法。该方法首先提取出每个停留热点的功能类型、出发时段、停留时长和地理空间位置,并仿照自然语言处理中一些任务,将停留热点的每个特征看作是一个词元,并将停留热点序列重新组织成一个句子。之后通过预训练加微调的方式进行知识迁移,缓解部分数据稀疏流向推断精度不高的问题,其中在预训练阶段,本发明专利技术提出了改进的BERT模型,利用掩码语言任务和两个对比学习任务充分捕获货车司机的停留模式,在微调阶段,本发明专利技术加上了停留热点的ID特征进行相似度计算进一步提高了模型的推断精度。

【技术实现步骤摘要】

本专利技术属于轨迹挖掘,具体涉及一种基于bert语言模型的货运停留热点序列推断方法。


技术介绍

1、在大宗货运场景下,路线推荐具有至关重要的作用,好的路线推荐方案能够显著提升货车司机满意度,从而提高物流效率并降低运营成本。与城市路网中普通车辆的行驶路线不同,大宗物流场景下的货车行驶路线具有里程远,时间长和路网跨省市的特点,一次长距离的运输任务需要花费数十个小时甚至数天。因此运输途中为了满足休息和就餐等需求,货车司机会选择合适的地点进行停留。停留热点序列推断旨在根据司机的历史轨迹数据和当前司机的查询请求,推断司机在该次运输任务中访问的停留热点序列。准确的停留热点序列推断可以更好地辅助路径规划,防止司机疲劳驾驶并满足司机的多种停留需求,从而更好地提升司机对于路线的满意度,此外也有助于提升运输时长预测的精度,便于后续运输计划的安排。然而当前缺乏一种满足货车司机停留偏好的停留热点序列推断方法。

2、如何准确地从历史数据中捕获出司机的停留偏好并推断停留热点序列并不容易,首先,司机对当前的停留热点的选择会受到起终点、前序已停留热点、出发时段和运输终点工作时段限制等多种复杂因素等共同影响,如何充分地建模这些复杂因素的影响并推断出当前停留热点是现有技术面临的第一个挑战。此外,大宗物流场景下不同流向存在轨迹数据偏态分布的情况,其中流向表示从起点出发到某个终点的方向,一些热门流向的历史轨迹数量相较冷门流向会多很多,导致不同流向的轨迹数据不均衡,现有的方法会倾向于推断轨迹数量较多的流向的停留热点序列,而在轨迹数量较少的流向推断的精度不高,因此如何提高轨迹数量较为稀疏流向的预测精度是现有技术面临的第二个挑战。

3、停留热点序列推断任务与兴趣点推荐领域中行程推荐任务类似,行程推荐旨在根据用户的查询请求,为用户推荐一条符合用户偏好的兴趣点(poi,point ofinterest)序列,现有的行程推荐方法可以分为两类,分别是基于传统机器学习和基于深度学习的方法,基于传统机器学习的方法大多通过简单的统计方法去建模用户的行为模式[1-2],例如一些方法使用马尔可夫链从历史轨迹数据中学习出poi间的转移概率[1],另一些方法会将行程推荐问题看作是定向问题的变体[2],利用了poi的流行度和用户在poi的访问时长对poi进行评分并推荐路线。但是上述方法依赖于人为先验设定的目标函数和约束函数,由于用户需求的多样性和历史轨迹数据中的稀疏性,导致上述方法不能很好的刻画出用户真实的旅行意图。

4、近年来,seq2seq模型在自然语言处理等领域得到了广泛应用,例如在机器翻译等任务上取得了巨大成功。同时由于行程推荐的输入可以看作只包含起终点的序列,输出可以看作一个poi序列,因此许多学者将行程推荐问题看作是seq2seq问题进行建模[3-5],采用的方法有基于rnn和gan的推断方法[3]、基于transformer和多任务学习的方法[4]、基于对比学习的方法[5]等,此外还有学者将行程推荐任务看作是一个完形填空的任务,提出了基于bert的自监督行程推荐框架[6],充分利用注意力机制以进行行程推荐。但是上述方法并没有考虑到不同流向的轨迹数据具有空间异质性和相似性,空间异质性即部分流向上的停留热点在地理空间上的分布存在差异,这会影响货车司机对于停留热点的选择;相似性即部分流向上的停留热点在地理空间上的分布近似,因此在这些流向上司机的停留热点序列会较为接近。同时上述方法都依赖于poi的id特征,然而不同流向的停留热点id不同,例如在某一流向司机dri1行驶的路线为1-2-3(数字代表停留热点的id),先前的方法可以捕获到1-2-3之间的顺序依赖关系,但是这样的信息无法迁移到其他的流向,因此不能很好的解决轨迹数据稀疏和冷启动的问题。


技术实现思路

1、为了解决现有技术存在的不足,本专利技术的目的是提供一种基于bert语言模型的货运停留热点序列推断方法,能够利用货车司机的历史轨迹数据捕获出货车司机的停留偏好,从而更好地服务于运输路线规划和运输时间预测。

2、为实现上述技术目的,本专利技术采取的技术方案为:

3、一种基于bert语言模型的货运停留热点序列推断方法,包含以下步骤:

4、s1:停留热点属性提取阶段:从停留热点序列中提取出停留热点的多个特征属性,包括停留热点功能类型、出发时段、停留时长和地理空间位置;

5、s2:停留热点序列划分阶段:对历史停留热点序列重新进行划分以便对齐训练和推理时的输入;

6、s3:停留热点序列嵌入阶段:基于s2得到的停留热点序列,采用四种可学习的编码层对停留热点序列进行编码以作为后续预训练模型的输入;

7、s4:预训练模型学习阶段:在bert语言模型的基础上引入了两个对比学习代理任务以对bert模型进行改进,并利用改进的bert语言模型对基于s3得到的停留热点编码进行预训练,得到停留热点预训练表征;

8、s5:停留热点表征微调阶段:利用当前流向的历史数据对基于s4得到的停留热点预训练表征进行微调以获得最终的停留热点序列预测模型;

9、s6:停留热点序列预测阶段:基于s5得到的最终停留热点序列预测模型,根据司机给出的查询请求依次预测出下一个司机想要停留的停留热点直到预测到终点后终止。

10、为优化上述技术方案,采取的具体措施还包括:

11、上述的步骤s1中,

12、为了充分考虑停留热点功能类型、时间维度(包括出发时段、停留时长等)和地理空间维度(包括地理空间位置等)对司机在运输任务中选择停留热点的影响,本专利技术提取了停留热点序列中的四个属性,包括:1)停留热点功能类型(表示为shtype):本专利技术将停留热点的功能类型分为五类(包括起点(origin)、终点(destination)、休息区(rest area)、餐厅(restaurant)和加油站(gas station));2)出发时段(表示为shdeparture):本专利技术将一天[00:00,24:00)划分为24个间隔,即[00:00,01:00)、[01:00,02:00)、……、[23:00,24:00);3)停留时长(表示为shduration):本专利技术设置了3个停留时长间隔,分别为[0分钟,40分钟)、[40分钟,60分钟)和[60分钟,∞);4)地理空间位置(表示为shspace):本专利技术将地图划分为网格,将停留热点的经纬度坐标映射到所述停留热点所在位置的网格id上;

13、在一个具体实施方式中,选用的地图为山东省地图。

14、上述步骤s2中,

15、由于训练时能够事先知道每一次运输任务中的所有停留位置,但是在推理时只有司机提供的起点和终点信息,因此为了对齐训练和推理时的输入,本专利技术重新对基于s1得到的停留热点序列进行了组合,通过在训练用的停留热点序列的起点后虚拟复制终点信息,使训练用的停留热点序列和推理时的序列输入格式保持一致。同时,为了扩充数据量以便后续模型更好地训练和收敛,本发本文档来自技高网...

【技术保护点】

1.一种基于BERT语言模型的货运停留热点序列推断方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的货运停留热点序列推断方法,其特征在于,步骤S1中,所述停留热点的特征属性包括停留热点功能类型、出发时段、停留时长和地理空间位置;其中,

3.根据权利要求1所述的货运停留热点序列推断方法,其特征在于,步骤S2中,

4.根据权利要求1所述的一种货运停留热点序列推断方法,其特征在于,步骤S3中,

5.根据权利要求1所述的货运停留热点序列推断方法,其特征在于,所述步骤S4中,

6.根据权利要求5所述的货运停留热点序列推断方法,其特征在于,所述步骤S4中,

7.根据权利要求1所述的货运停留热点序列推断方法,其特征在于,步骤S5中,

8.根据权利要求1所述的货运停留热点序列推断方法,其特征在于,步骤S6中,

【技术特征摘要】

1.一种基于bert语言模型的货运停留热点序列推断方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的货运停留热点序列推断方法,其特征在于,步骤s1中,所述停留热点的特征属性包括停留热点功能类型、出发时段、停留时长和地理空间位置;其中,

3.根据权利要求1所述的货运停留热点序列推断方法,其特征在于,步骤s2中,

4.根据权利要求1所述的一种货运停留热点序...

【专利技术属性】
技术研发人员:朱开旋毛嘉莉吴涛周傲英
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1