<aside> 💡 本次取得南京地铁23年运营数据(按天计)

</aside>

1. 数据预处理

  1. 精简并合并数据
  2. 对异常数据的处理(主要考虑路网变动的影响)
  3. 将交易数据处理为5分钟时间切片的进出站数据

2. 特征工程(按站点建立模型)

  1. 路网其他站点前四个小时的进站客流量(路网稳定的情况下,所以路网变动情况下稍微有些干扰,特别是一些新站点)
  2. 常规特征:月份、日期、工作日(周一到周四、周五以及周末)
  3. 天气:爬取(我这里现在有23年南京按小时的天气数据,以及节假日数据)
  4. 构建的部分特征
    1. 其中第一列为要预测的值,即为出站客流
    2. 第二列及后面的为特征值,时间戳、月份特征、日期特征、星期特征以及其他站点前四小时的进站客流
    3. 训练集和测试集的数据量为数据的天数*一天的时间的时间戳数量(大致为75000)

Untitled

3. 模型选择(LightGBM)

4. 模型评估和调整(0701)