关键词:
热带果树
寒冻害
深度学习
门控循环单元(GRU)
不平衡数据
气温预测
摘要:
在机器学习的许多实际应用中,存在着许多数据不平衡的问题。传统机器学习算法往往以总体的分类准确率为目标,在对不平衡数据分类时容易忽略少数类。虽然当前对分类任务的数据不平衡问题研究较多,但对于回归任务的数据不平衡问题的研究较少。而在热带果树寒冻害预警问题中,气象数据集通常是不平衡的,即对热带果树造成寒冻害的天数较少,果树正常生长的天数较多。故针对传统机器学习算法在分类不平衡数据时容易忽略少数类的问题,提出了一种多策略处理不平衡数据的Ms Boost算法(Multistrategy imbalanced data processing with Boosting)。针对传统热带果树寒冻害预警的不足和气象数据不平衡的问题,将不平衡数据处理策略和GRU相结合,构建了热带果树寒冻害预警模型——IBDP-GRU(GRU with imbalanced data processing)。该模型通过预测次日的日最低气温,并结合相关热带果树的寒冻害指标,从而判断果树在次日是否会受害。主要的研究工作如下:1.为提升传统机器学习算法对类不平衡数据的分类性能,提出了一种针对不平衡数据的多策略处理算法Ms Boost。该算法首先对数据进行聚类;其次对少数类样本进行过抽样,对多数类采用提出的“三合一”算法进行欠抽样;然后采用代价敏感的思想,为抽样后的训练样本按不同类赋予不同的权重作为Ada Boost算法中训练样本的初始权重;最终将少数类样本和多数类样本结合,输入到模型中训练。将Ms Boost算法与Ada Boost、Rus Boost、Smote Boost和Cus Boost算法进行了性能比较。结果表明,Ms Boost算法在比较的多数数据集上都优于其它算法,因此Ms Boost是一种处理类不平衡数据的有效算法。2.因气象数据多为不平衡的时间序列数据集,即果树受寒冻害影响的天数远低于不受害的天数,故将提出的面向不平衡数据分类任务一些策略加以修改,使其能处理回归任务涉及的数据不平衡问题。将修改后的不平衡数据处理策略和GRU相结合,建立了面向不平衡时间序列数据的热带果树寒冻害预测模型——IBDP-GRU模型。首先,按照设定的低温阈值,将数据样本按其日最低气温分为两类,高于阈值(称为多数类)和低于阈值(称为少数类);然后利用修改后的“三合一”欠抽样算法,对多数类样本进行欠抽样,降低训练数据集的不平衡率;接着通过为少数类训练样本赋予一个大于多数类训练样本的权重,使模型更加关注少数类样本;再将训练样本输入到搭建的GRU神经网络模型中进行训练;最后结合神经网络的日最低气温输出结果和果树的寒冻害指标,判断果树在次日是否会受害。在模型的有效性验证实验中,结果表明,IBDP-GRU模型在不显著影响多数类样本预测的情况下,能更好地预测少数类样本,验证了IBDP-GRU模型的有效性。在南宁热带果树寒冻害预警实验中,结果表明,IBDP-GRU模型对香蕉和莲雾在次日的寒冻害预警在误报率不显著增加的情况下,具有更高的正报率和更低的漏报率。其中,模型对香蕉寒冻害预警的正报率分别比GRU、LSTM、CNN-GRU和BP模型高16.4%、19.3%、20.3%、31.3%;模型对莲雾的寒冻害预警的正报率分别比上述模型的高18.7%、18.6%、20.5%、32.2%。实验结果验证了IBDP-GRU模型对热带果树寒冻害预警的有效性和可靠性。