关键词:
云计算
应用结构与组件
故障预测与健康管理
摘要:
以云计算和大数据为核心,以物联网和云边协同为延伸,不断支撑“互联网+”“AI+”相关应用结构和组件的“跨行业、跨领域”融合,形成了当今具备大规模混合基础设施和面向复杂多样化应用需求的云计算平台。在云计算平台不断融合发展的背景下,学界和工业界对云计算平台中相关应用结构和组件的故障预测与健康管理(Prognostic and Health Management,PHM)方法提出了更多的应用需求。
首先,在云计算平台中广泛存在着各种应用结构和组件。由于云计算独特的虚拟化技术和用户应用程序访问权限受限的影响,使得云计算环境下的基本组件—用户虚拟机(Virtual Machine,VM)存在着“故障机理分析难”和“故障根因清除难”的问题,这使得传统的故障预测方法难以直接应用到用户VM中;其次,由于云计算动态的资源分配方式,使得相关应用结构复杂、动态、灵活,为相关的故障预测模型的构建带来了极大的困难;此外,云计算系统中还存在着一些特殊的应用结构和组件,如安全应用需求下由于采用了特殊的攻击抵御技术(如多版本编程技术、投票机制等)而产生的特殊应用结构、工业互联网中的特殊物理设备组件等,这些特殊的应用结构和组件都需要有针对性地进行故障预测相关研究。
其次,在故障预测的基础之上,云计算系统下的健康管理同样面临着诸多挑战。如针对用户VM的故障机理“黑盒”现象,是否可以采用一种新颖的仿生学实现方法来有效地实现其健康管理。借鉴人体的仿生学机理,身体在“自主神经系统”的帮助下总是能维持身体处于一种健康状态,而“大脑”虽然不知道身体不适状态的微观产生细节(就好比故障机理“黑盒”现象),但却能有意识地控制身体行为以避免受到不适状态的伤害。显然,其当今的云计算就好像人体一样庞大复杂且充满许多未知的用户故障机理,但在健康管理上却缺失了重要的“自主神经系统”和“大脑”。因此,借鉴仿生学的思想设计一种高效的云计算PHM系统实现方法,将为应对故障机理“黑盒”现象提供一种新颖的解决途径。
本文重点研究云计算系统下的故障预测与健康管理方法。本文主要从基于仿生借鉴的云计算PHM系统实现方法、面向并行冗余计算应用结构的PHM建模及优化理论、面向特殊应用结构和组件的PHM模型与方法三个方面开展相关的研究,具体包括:
(1)本文研究了一种基于仿生借鉴的云计算PHM系统实现方法,该方法借鉴人体的生物机理,设计了一种由“神经元模块、自主神经系统模块、类脑计算模块”组成的云计算PHM系统,其最大的特色在于通过“异常症状编码”和“通用健康保障动作”有效解决用户VM“故障机理分析难”和“故障根因清除难”的相关问题。在本文给出的云计算PHM系统实现方案中,为神经元模块设计了“生成重构模型+异常检测算法”的实现思路;为自主神经系统模块设计了从“异常症状编码”到“通用健康保障动作”的自主反射行为;为类脑计算模块设计了基于强化学习的学习提升能力。从而在神经元模块、自主神经系统模块、类脑计算模块之间形成有机结合的闭环反馈,共同实现自主反射行为执行效果的持续优化更新。相关实验表明本文所设计的云计算PHM系统实现方法能有效实现异常症状诊断、健康性及时保障、保障效果持续优化等重要功能。
(2)针对云计算系统下广泛存在的“AI+”应用场景,本文研究了面向并行冗余计算应用结构的PHM建模及优化理论。在故障预测模型方面,本文分析了并行冗余计算应用结构中出现的链路故障、任务故障、物理机故障以及不同类型故障之间的失效关联现象,构建了应用结构的扩展树形拓扑,提出了一种基于最小任务执行树的应用结构分析方法,并进一步采用贝叶斯理论和容斥原理实现了一种复杂应用结构下健康性评估计算的通用方法。在故障预测模型的健康性评估基础上,本文进一步建立了一种冗余约束下的健康管理优化模型,并设计了一种自适应遗传粒子群优化算法以获得最优的应用结构(即健康管理方法)。通过应用结构的优化,云计算系统可以执行优化的资源管理和任务分配方案,以此来获得满足“AI+应用”计算需求的最优健康性保障策略。
(3)针对云计算环境下特殊的共驻攻击及其相应的安全性服务需求,多版本编程技术和投票机制(N-Version Programming and Voting,NVP-V)被广泛应用,并形成了安全云计算环境下一种特殊的NVP-V应用结构。本文系统地研究了NVP-V应用结构的故障预测模型,该模型首先计算了x-out-of-s个服务器放置恶意虚拟机(Malicious VM,MVM)的概率;研究了在x台服务器存在同驻攻击的情况下,云应用VM抵御共驻攻击产生正确输出结果的概率;最后通过条件概率计算方法获得了整个应用结构的健康性评估指标。在面向基于设备成像分析(Device Imaging Analysis,DIA)进行故障预测的特殊物理设备时,本文提出了