关键词:
多因子选股
量化投资
XGBOOST
SVM
摘要:
随着世界经济的高速发展,证券市场也更加完善和复杂,规模也在逐步增加,各式的投资种类层出不穷。量化投资是一个通过从历史数据中提炼有效经验,并把这些经验运用于指导未来的一个新投资方法,量化投资通过数学模型以及计算机来实现投资策略,从而获得较为稳定的超额收益。和传统投资方式不同,量化投资不受个人主观情感的影响,也因此能够保证投资逻辑的稳定性。多因子选股模型是较为经典的模型之一,该策略的主要思想是根据金融理论寻找一些影响股票收益的因子数据,通过模型利用相关因子筛选出能够获取超额收益的股票构建组合。随着人工智能快速发展,在处理高维数据时,广泛使用机器学习模型能取得较好的效果。因此本文构建了基于机器学习算法的多因子量化选股策略,在不同情况下分别进行回测,将回测结果进行对比。在量化多因子选股模型中,最重要的是解决因子池构建以及策略模型构建两大问题。针对这两个问题,在参考前人研究的基础上,本文从价值因子、成长因子等九个大类中选择了共51个因子作为初始因子构建因子池。在分类算法选择方面,本文选择了XGBOOST模型和SVM模型进行实验。本文选择沪深300指数成分股作为主要研究对象,选择2018年11月-2021年11月间每月最后一个交易日因子截面数据为主要样本数据,实验过程主要分为数据预处理与模型策略的建立,其中在数据预处理部分使用Lasso算法对特征因子进行降维处理,筛选出重要因子。为了使模型能够及时抓住市场的变化,本文采用了滚动训练的方式,不断重复进行训练。本文所建立的机器选股策略在2018年11月-2021年11间,最高的年化收益率达到59.31%,远超过同期沪深300指数表现(同期沪深300指数年化收益为:15.3%)。本文将策略在不同持仓数量、不同训练集长度、不同调仓周期的情况下加以比较分析,结果发现基于机器学习选股策略的表现差异很大。总的来说,当持仓数较少时,策略会有更高的收益,同时投资组合所承受的风险会越大。由于资本市场经常会出现风格切换,风格切换后可能会使前期的重要因子失效,合理选择训练集长度就十分重要,本文研究发现将模型训练集长度设置为9个月时,策略会取得更好的效果。策略模型调仓周期不能太长,调仓周期过长可能会使得投资组合错过某些重要行情,调仓周期设定成1-2个月较为合适。从整体上看,在本文所选因子的前提下,XGBOOST模型策略效果要优于SVM模型策略效果。