关键词:
科学工作流
地球系统模式
遥感影像
回归、分类与分割问题
域适应
摘要:
科学计算的核心价值在于运用前沿计算技术来破解错综复杂的科学难题,从而推进知识的深化与技术革新。在地球科学领域,研究者利用高性能计算技术模拟和分析各种自然现象和地球系统过程,其产生的科学数据量也不断增加。如何高效而灵活地利用这些大规模科学数据,以获取有价值的信息,是一个具有现实意义且富有挑战性的课题。针对地球科学大数据分析与处理的应用需求,本文基于科学工作流的思想,结合本文作者在国家超级计算中心的科研工作实际,针对地球科学数据处理中面临的现实问题展开了以下研究:
首先,从科学计算的实际场景出发,本文在第2章中探讨了当前场景中实际存在的问题,并针对超算服务设计了一套更灵活的工作流系统解决方案——GEO-WMS。这一方案采用了一种结构化的方法来描述工作流,并为科学工作流配备了更为友好的交互逻辑。同时,通过高效地复用历史工作流及其数据,实现了计算资源的节约。测试周期内的统计结果与用户反馈均表明,本文所提出的工作流管理系统能够有效地节省研究者的操作时间与精力,同时降低计算成本。该系统具备易用性、统一性、规范性和可扩展性等多重优势,显著提高了计算资源的利用率,并具有重要的示范意义。
随后,本文依托科学工作流的理念,针对回归、分类、分割这三大典型交叉学科应用场景,结合实际设计了相应的科学工作流程。在回归问题的框架下,第3章对单柱大气模式(Single Column Atmosphere Model,简称SCAM)展开了大规模的参数分析与调优探索。本章提出了一种新的混合框架,该框架融合了大规模执行与基于学习的代理模型,旨在支持大规模敏感性分析及多参数组合的精细调优。本章聚焦于SCAM中参数化方案的11个关键参数,通过有效利用采样过程中生成的实例数据,训练出了一个高效的基于学习的代理模型。该模型在保持高精度的同时,能够以更低的计算成本实现了更优的优化效果。借助这一科学工作流,针对三参数组合深入探索了参数组合在不同情境下的联合敏感性,成功进一步降低了降水误差,彰显了科学工作流在提升数值模式模拟准确性方面的显著优势。
在地球科学研究中,遥感图像数据是卫星观测数据的一个典型代表。因此,在运用回归思想为地球系统模式构建代理模型以加速优化的基础上,第4章又根据分类思想,深入探索了遥感数据处理这一地球科学领域在计算机上的另一重要应用场景。域适应(Domain Adaptation,简称DA)方法在遥感领域具有广泛应用,其优势在于无需在目标领域添加人工解读,因此特别适用于跨区域、多时相和多传感器的应用场景。为更好地应对遥感领域中的域适应挑战,本章依托科学工作流的理念,在优化与整合损失函数的同时,提出了一种新的通用数据处理方法C3DA专门用于遥感场景的分类。该方法通过融合样本的置信度、一致性和确定性,使网络训练更高效,并在通用的DA场景下获得更高的分类性能。在基于3个经典数据集构建的6个迁移学习任务上,相对现有方法有着明显的性能提升。这一方法在不需要任何关于标签集的先验知识的情况下,可以更好地解决更加通用和实际的数据分析问题。
接下来,在上一章工作的基础上,第5章对主动学习应用于遥感影像语义分割中的域适应场景展开了更为深入的探讨。本章提出了一种新的方法,将同时考虑到区域感知要素的主动选择策略引入到遥感领域中。同样基于科学工作流的思想,本章提出了融合了一致性与确定性的区域感知主动域适应RC2ADA,通过保持源图像中每个像素与其最近邻的局部预测一致性,同时结合标准监督损失和负学习损失,使特征更具有区分性。在实验部分,本章在两个典型的遥感图像数据集上设计了4组迁移学习实验,并验证了所提方法在实验中的有效性。在上述任务的表现中,提出的方法显著优于现有方法,并缩小了与全监督方法之间的差距。结果表明,该方法使用非常少的注释数据就可达到出色性能,为促进遥感影像分析的发展提供了具有现实价值的启示。
本文研究了基于科学工作流的地球科学数据处理方法,以大气数值模拟与遥感影像分析两种典型应用作为研究对象,通过解决回归、分类与分割这三类经典问题,展示了从科学计算任务的管理走向数据处理与分析、再到更高阶应用的发展路线。本文的方法可以在主流的地球系统科学研究场景中表现出良好的性能,且可做到与实践紧密耦合,进而提高科研工作效率。