<aside>
💡 本次取得南京地铁23年运营数据(按天计)
</aside>
1. 数据预处理
- 精简并合并数据
- 保留需要的列:交易日期、站点ID、线路ID、交易时间和交易金额
['TRANDATE', 'STATIONID','LINEID', 'TRANSACTIONDATETIME', 'TRANSACTIONVALUE']
- 将一卡通、一票通和移动支付的数据合并
- 数据展示:截取的各月的2号,各站站点客流统计(以站点为横坐标,客流量为纵坐标的图示,十张图片分别是1-10月,简单观察来说,图形大致相同,即大多数站点的客流量相对稳定)
- 对异常数据的处理(主要考虑路网变动的影响)
- 宁滁线(S4),站点包括
['汊河新城', '汊河', '琅琊山', '滁州政务中心', '十二里半', '大王郢', '苏滁商务中心', '花博园', '林楼', '滁州高铁']
以及预留车站['担子站'、'水口站'、'相官站'、'腰铺站'](无数据)
该线年中开通,并且和南京线网并未接通;
- 7号线南段,不包含换乘站
['西善桥站', '太清路站', '嘉陵江东街站', '新城科技园站', '梦都大街东站', '应天大街站'](无数据)
- 5号线,不包含换乘站
['九龙湖南站', '前庄站', '科宁路站', '新亭路站', '东山站', '文靖路站'](无数据)
- 将交易数据处理为5分钟时间切片的进出站数据
- 个别站点一个月的天客流趋势(图片以时间为横坐标,客流为纵坐标,选取10个站点的10月份客流统计规律,因为站点的周边住宅区or工作区特征和早晚高峰呈现出不同样式)
2. 特征工程(按站点建立模型)
- 路网其他站点前四个小时的进站客流量(路网稳定的情况下,所以路网变动情况下稍微有些干扰,特别是一些新站点)
- 常规特征:月份、日期、工作日(周一到周四、周五以及周末)
- 天气:爬取(我这里现在有23年南京按小时的天气数据,以及节假日数据)
- 构建的部分特征
- 其中第一列为要预测的值,即为出站客流
- 第二列及后面的为特征值,时间戳、月份特征、日期特征、星期特征以及其他站点前四小时的进站客流
- 训练集和测试集的数据量为数据的天数*一天的时间的时间戳数量(大致为75000)

3. 模型选择(LightGBM)
4. 模型评估和调整(0701)