关键词:
高速公路交通安全
多尺度数据集
实时事故风险
统计学
机器学习
模型移植
摘要:
高速公路的快速发展带来的交通安全问题一直是交通管理部门工作中的重难点。随着动态交通数据的获取更加容易,“主动”交通安全管理成为当前研究的热点,完善了传统“被动”交通安全研究中不能及时有效识别出交通事故发生风险的缺陷。但是在目前的主动交通安全研究中,所采用的动态交通数据类型较为单一,没有考虑到多尺度数据条件下实时事故风险建模的研究,忽略了有限交通数据问题对于建立的实时事故风险预测模型的影响,鲜少考虑到风险预测模型在有限数据以及空间区域不同条件下模型移植的可靠性研究。这使得在主动交通安全管理应用上得不到精细化指导。基于上述问题,本文做了以下相关研究:(1)高速公路交通数据预处理及多尺度数据集的构建针对实时事故风险分析与预测的问题,建立了一系列相关数据的处理流程,即包括:事故数据提取、交通流数据提取、线圈数据提取、交通流变量选取、线圈位置选取以及数据匹配等,并构建了多尺度数据集用以实时事故风险分析及预测。(2)小样本数据条件下实时事故风险分析与预测针对不同交通事故样本量条件下,基于Logistic逐步回归筛选小样本数据集的显著事故征兆因子并进行对比分析,然后构建贝叶斯Logistic实时事故风险预测模型并分析不同样本量条件下的预测模型的差异,结果表明:在样本量不同时,事故的显著事故征兆因子存在差异,但是存在相同的事故征兆因子——上游线圈的速度(up_s),基于贝叶斯Logistic回归的实时事故风险预测模型的性能整体来看随着样本量的增大有所提升。(3)不同精度数据条件下实时事故风险分析与预测针对构建的不同精度数据集,基于统计学方法以及机器学习方法对高精度和低精度数据集进行分析。基于Logistic逐步回归法以及随机森林算法分别对两组数据集进行事故征兆因子筛选,结果表明:在同一筛选方法中,不同精度数据集的风险变量存在差异;在同一数据集中,逐步回归法能够得到显著事故征兆因子,而随机森林算法只能得到征兆因子的重要度,需要进行主观因子筛选;基于贝叶斯Logistic回归以及支持向量机分别对两组数据集构建了实时事故风险预测模型,结果表明:高精度数据集(I-5)构建的模型整体性能更好,贝叶斯Logistic回归的AUC值为0.737,比低精度数据集的AUC值高0.081,支持向量机模型的AUC值为0.85,比低精度数据集的AUC值高0.05;且机器学习算法的预测结果要优于统计学方法,但是贝叶斯Logistic具有定量解释的优势。(4)高速公路实时事故风险预测模型移植可靠性分析基于贝叶斯Logistic回归及贝叶斯方法,对不同精度数据集以及不同空间区域高速公路数据集构建的实时事故风险预测模型进行移植有效性验证分析。结果表明:基于贝叶斯更新方法,将高精度数据集(I-5)构建的模型参数更新低精度数据集的实时事故风险预测模型,使得模型的AUC值从0.656提高到0.682;同时,基于I-405高速公路的模型参数更新I-5高速公路的实时事故风险预测,使得模型的AUC值从0.737提高到0.751。分析结果表明:基于贝叶斯方法的Logistic回归模型,当获得新的数据时,在一定程度上能够实现模型预测性能的提升。