出租车线路预测 ( Taxi Trajectory Prediction ) 是 Kaggle 2015 ECML PKDD机器学习会议的两场竞赛中的第一场。一个团队使用他们在MILA实验室开发的深度学习工具在竞赛中赢得了第一名。在这篇文章中,他们分享了许多关于这次竞赛的情况和他们获胜的方式。来自381个团队的459位数据专家针对预测出租车乘客可能在哪下车进行竞赛.

基本信息

目标任务特别简单:我们将要通过出租车的起点(GPS定位点)和一些其他的元数据信息(日期,时间,出租车号码,客户信息)来预测出租车的目的地。所有的训练数据都是发生在2013-2014年波尔图出租车的行驶路线,涉及442辆出租车大概170万的路线信息。用我们最优的模型预测目的地,测试车辆按照我们预测的地点行驶。

问:在数据方面你们遇到过哪些主要困难?

有好几种,例如:

出租侧轨迹是可变长度序列,最短的时候是0(比如当数据丢失的时候),最长的时候大概是5000GPS点(相当于20个小时的车程!)。

  • 数据的特征是非常多样化的:尤其是特定的元数据是离散的(出租车号码和客户id),而其他的则是高度结构化的(日期,时间),还有GPS的轨迹是连续的坐标序列。
  • 作为现实世界的数据,数据之间有诸多矛盾,比如行车时间持续多达16个小时,或者是出租车开到了伊朗:)。伊朗的坐标点肯定是由错误的GPS校准产生的。总的来说,因为不精确的GPS定位,训练轨迹将会有许多噪声。

(全文请访问 http://bbs.gpuworld.cn/portal.php?mod=view&aid=138 )