关键词:
常微分方程
基因表达式编程
多因素正则化
数值差分
股价预测
摘要:
现实生活中部分复杂系统的研究属于时间序列问题,其变化过程可通过利用实际的观测数据和信息分析规律,构建微分方程模型来进行描述.且该模型可以用来预测复杂系统的未来行为.基因表达式编程算法(Gene Expression Programming,GEP)可以自动建立模型,而且该算法独特的编码方式弥补了遗传编程表达单一的缺陷.但是这种算法仍然存在容易过拟合及跳出局部最优能力不足等问题.为了解决上述问题,本文从正则化的角度出发,提出了多因素正则化改进的基因表达式编程算法,用该算法建立常微分方程模型.在此基础上,进一步考虑时序数据短期波动较大的特征,提出基于差分正则项的改进GEP算法,并通过股价预测实验对所提算法进行对比验证.本文的主要工作及创新点如下:1.对于复杂系统的时序数据预测问题,像逻辑回归和ARIMA等传统的机器学习算法无法得到高精度的显式表达模型.针对这个问题,同时考虑到时序数据的波动特征,本文利用数值差分对数据进行预处理.然后利用GEP算法自动发现数学模型的能力,建立高阶常微分方程模型来刻画数据变化趋势.2.针对GEP算法在处理少量数据或噪音严重的数据时,容易出现过拟合现象,从而导致模型不符合实际的问题,本文提出多因素正则化改进的基因表达式编程算法(Multiple Factors Regularization GEP,MFR-GEP).该算法在标准GEP的基础上,增加了约束条件作为正则项加入适应度函数,且对新加入的指标数据进行差异化处理,增强数据表征性.3.针对GEP算法对于波动较大的数据拟合效果较差的问题,本文进一步提出多因素差分正则化改进的基因表达式编程算法(Multi-factor Differential Regularization GEP,MDR-GEP).在MFR-GEP的基础上,改变适应度函数中的正则项形式,利用变量的差分数据构造复合指标.由此得到新的适应度函数.利用该适应度函数指导种群的进化方向,更加能够体现数据的波动情况,在提高拟合精度的同时,进一步提高预测精度.4.将MFR-GEP、MDR-GEP应用于股价预测领域,并与ARIMA、神经网络及标准GEP进行对比研究.最后,10只股票的仿真实验结果表明,本文方法的平均相对误差总体上低于其它对比方法,充分表明了本文方法的精确性和有效性.