一种识别货运站点类型的方法技术

技术编号:18733253 阅读:22 留言:0更新日期:2018-08-22 03:19
本发明专利技术公开了一种识别货运站点类型的方法,它包括站点内的停留事件数据采集,站点内的停留点数据POI类型解析,基于LDA的主题模型训练,基于模型对站点类型进行预测四部分;本发明专利技术能够快速地、批量地对站点类型进行识别,极大地降低了人工标记的成本;本发明专利技术能够帮助物流企业对不同类型的站点间进行精细化的时效管理;本发明专利技术根据系统里数十万站点和真实货车停留数据结合LDA模型,不断累加数据和优化模型提高识别的准确率,解决人工标记的太多人为影响因素。

【技术实现步骤摘要】
一种识别货运站点类型的方法
本专利技术涉及物流
,具体为一种识别货运站点类型的方法。
技术介绍
目前物流行业还没有专门针对货运站点类型进行识别的方法,都是基于人工对货运车辆经常进出的站点进行类型标记,这是一个相当费时费力的工作,并且还依赖于标记人员对行业的了解和对车辆运输货物类型的理解。货运站点类型对货运行业的运输时效的监控也起到了比较关键的作用。各个地图厂商也有相应的基于地理位置的POI类型,但是这些POI类型都是基于生活服务和其它基础设施的,没有完全的基于物流行业的类型,也不能直接在物流行业使用。
技术实现思路
本专利技术的目的在于提供一种识别货运站点类型的方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种识别货运站点类型的方法,包括如下步骤:A、站点内的停留事件数据采集;B、站点内的停留点数据POI类型解析;C、基于LDA的主题模型训练;基于模型对站点类型进行预测。优选的,所述步骤A中停留事件是平台根据车辆上报的gps位置判断,车辆在同一位置连续2分钟以上没有位置变化认定为停留,把生成的停留事件放到mq里,大数据平台消费mq的数据存入hdfs;每辆车在同一小地址范围内可以产生多条停留数据;不同车辆可以在相同地点产生停留数据。优选的,所述步骤B中解析步骤如下:a、获取站点范围数据;b、判断停留点是否落在站点内;c、对站点内的停留事件的GPS点调用第三方地图厂商API进行增量解析,解析会返回相应的详细地址信息,同时带上对应的poi信息对解析回来的数据按站点、POI类型、POI名称进行保存。优选的,所述步骤C训练步骤如下:a、对POI类型进行拆分;b、对站点内各种类型进行分类汇总,形成类型分布数据;c、对站点和类型进行数据化;d、对站点的POI类型分布数据进行预处理形成LDA模型数据需要的格式;e、把预处理好的数据加载到LDA进行训练;f、根据模型的类型描述对各个主題单独取对应的货运行业类型名。优选的,所述步骤D预测方法如下:a、对所有的站点按训练时的预处理格式准备数据;b、对所有站点数据进行预测,得到对就的模型编号的概率。与现有技术相比,本专利技术的有益效果是:本专利技术能够快速地、批量地对站点类型进行识别,极大地降低了人工标记的成本;本专利技术能够帮助物流企业对不同类型的站点间进行精细化的时效管理;本专利技术根据系统里数十万站点和真实货车停留数据结合LDA模型,不断累加数据和优化模型提高识别的准确率,解决人工标记的太多人为影响因素。附图说明图1为本专利技术的训练收敛图;图2为本专利技术另一训练收敛图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-2,本专利技术提供一种技术方案:一种识别货运站点类型的方法,包括如下步骤:A、站点内的停留事件数据采集;B、站点内的停留点数据POI类型解析;C、基于LDA的主题模型训练;基于模型对站点类型进行预测。其中,步骤A中停留事件是平台根据车辆上报的gps位置判断,车辆在同一位置连续2分钟以上没有位置变化认定为停留,把生成的停留事件放到mq里,大数据平台消费mq的数据存入hdfs;每辆车在同一小地址范围内可以产生多条停留数据;不同车辆可以在相同地点产生停留数据。本专利技术中,步骤B中解析步骤如下:a、获取站点范围数据;b、判断停留点是否落在站点内;c、对站点内的停留事件的GPS点调用第三方地图厂商API进行增量解析,解析会返回相应的详细地址信息,同时带上对应的poi信息对解析回来的数据按站点、POI类型、POI名称进行保存;如:gps(22.687883,114.110012)解析出来可能就是“广东省深圳市龙岗区平湖工业大道辅城坳德兴制品厂附近|辅城坳德兴制品厂|公司企业:企业/工厂”,这里的“公司企业:企业/工厂”就是poi类型,“辅城坳德兴制品厂”就是对应的poi名称。本专利技术中,步骤C训练步骤如下:a、对POI类型进行拆分;如“教育学校:小学”拆成“小学”;b、对站点内各种类型进行分类汇总,形成类型分布数据;如“站点1{'中学':'1','公寓式酒店':'1','农贸市场':'1','商务楼宇':'3','政府机关':'2','星级酒店':'16','经济型酒店':'3','综合商场':'3'}”;c、对站点和类型进行数据化;d、对站点的POI类型分布数据进行预处理形成LDA模型数据需要的格式,如“37142:40.0183:17.0250:6.0512:1.0558:2.0”,这就表示某个id为37的站点的POI类型分布;e、把预处理好的数据加载到LDA进行训练,分20、30、40、50、70、100次迭代,每次迭代分别取5、10、20、40、60、120、200、500为对应的K值进行训练,通过对logLikelihood和logPerplexity两个评价指标的观察(logLikelihood越大越好,logPerplexity越小越好),最终确定在200次迭代,k为40的时候收敛得比较好,效果如图1、2所示;f、根据模型的类型描述对各个主題单独取对应的货运行业类型名。本专利技术中,步骤D预测方法如下:a、对所有的站点按训练时的预处理格式准备数据;生成如下格式的数据(3142:40.0183:17.0250:6.0512:1.0558:2.0),用spark的LocalLDAModel.load("station_lda_v1/online_40_200")载入模型,把准备好的数据传入模型model.transform(dataset)即可得到对应数据集的各个id的一个topic分布情况,取这个topic权重最高的做为当前站点的类型。b、对所有站点数据进行预测,得到对就的模型编号的概率。本专利技术在实际运用中,会将预测的结果概率大于0.7的认为相对准确,没有达到相应值的认为可信度要低一些,继续收集数据进行下一阶段的预测;此外,本专利技术还可以结合线路任务对车辆的任务类型进行识别。综上所述,本专利技术能够快速地、批量地对站点类型进行识别,极大地降低了人工标记的成本;本专利技术能够帮助物流企业对不同类型的站点间进行精细化的时效管理;本专利技术根据系统里数十万站点和真实货车停留数据结合LDA模型,不断累加数据和优化模型提高识别的准确率,解决人工标记的太多人为影响因素。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...

【技术保护点】
1.一种识别货运站点类型的方法,其特征在于:包括如下步骤:A、站点内的停留事件数据采集;B、站点内的停留点数据POI类型解析;C、基于LDA的主题模型训练;D、基于模型对站点类型进行预测。

【技术特征摘要】
1.一种识别货运站点类型的方法,其特征在于:包括如下步骤:A、站点内的停留事件数据采集;B、站点内的停留点数据POI类型解析;C、基于LDA的主题模型训练;D、基于模型对站点类型进行预测。2.根据权利要求1所述的一种识别货运站点类型的方法,其特征在于:所述步骤A中停留事件是平台根据车辆上报的gps位置判断,车辆在同一位置连续2分钟以上没有位置变化认定为停留,把生成的停留事件放到mq里,大数据平台消费mq的数据存入hdfs;每辆车在同一小地址范围内可以产生多条停留数据;不同车辆可以在相同地点产生停留数据。3.根据权利要求1所述的一种识别货运站点类型的方法,其特征在于:所述步骤B中解析步骤如下:a、获取站点范围数据;b、判断停留点是否落在站点内;c、对站点内的停留事件的GPS点调用第三方...

【专利技术属性】
技术研发人员:李国娄伟锋朱波王凯邓唐生王翟
申请(专利权)人:吉旗成都科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1