关键词:
机器学习
数据处理
暂现源
摘要:
射电暂现源是在射电观测中探测到的瞬态信号,常见的射电暂现源有脉冲星、旋转射电暂现源、太阳耀发、快速射电暴等等。其中脉冲星的发现至今已有57年历史,是一种具有周期性的连续且稳定的脉冲源,根据其色散量可以确认起源于银河系内。而旋转射电暂现源在2006年首次被发现,同样具有周期性,但并非每个周期内都能探测到脉冲。快速射电暴则是在2007年第一次被发现,这种毫秒级的明亮射电脉冲,被认为起源于银河系外,有重复暴与非重复暴两类。快速射电暴与脉冲星相比巨大的距离与能量差别引发了人们对其起源的好奇。近年来随着观测设备的不断升级,人们得以发现越来越多的射电暂现源,但这些新设备的数据流也在急剧攀升,给数据的存储以及搜寻都带来了新的挑战。
本论文主要涵盖作者博士期间关于射电数据搜索所作的四项工作,前两项通过在传统搜寻流程中引入人工智能算法,达到更有效率地搜索特定暂现源的目的(本工作中为快速射电暴),后两项工作则为利用非监督的机器学习模型进行射电数据处理,如对已知射电源进行分类、搜寻非特定物理机制的异常信号等。
在第一章中,我们回顾了射电观测的历史,简要介绍了单天线射电望远镜的观测模式。我们简要回顾了其中三种射电暂现源的发现契机和发展历史。介绍了搜寻模式下射电数据的基本结构,以及如何利用这样的数据结构从中获取想要的科学信息。我们简要介绍了利用传统搜寻软件搜寻脉冲星,旋转射电暂现源和快速射电暴的流程,以及在找到脉冲信号后对信号进行进一步流量校准和偏振校准的方法。
在第二章中,我们介绍了机器学习的基本概念,回顾了机器学习的几个重要发展节点,并简要描述了一种用于图像识别的经典卷积神经网络的模型细节。之后我们回顾了近年来机器学习在天文学中的发展,应用与前景。
在第三章中,我们给出了两个利用监督学习搜寻快速射电暴的实例。在第一个例子中我们使用了残差神经网络对大量存档数据进行图像识别,并成功从海量图片中识别出了 81个候选快速射电暴。在第二个例子中,我们在处理一批FRB 20200120E的后随观测数据时,引入残差神经网络辅助搜寻,极大加速了我们的辨别速度,并最终从这批数据中找到一个亮脉冲。
在第四章中,我们介绍了两个利用无监督机器学习挖掘射电数据隐藏信息的工作。在第一个工作中,我们利用均匀流形近似和投影(UMAP)降维算法对快速射电暴进行分类,并发现重复快速射电暴和非重复快速射电暴之间存在一定区别,其中重复快速射电暴在频率方向上更倾向于表现出窄带特征。在第二个工作中,我们利用UMAP降维算法在射电观测存档数据库中直接搜索异常信号,并找到了 202个异常信号,其中有一些信号在经过后续详细分析后被确认来源于人工信号或地面干扰(如卫星、闪电等),还有一些信号疑似来自某个方向的天体,对于这些信号我们将进行后随观测进一步确认其真实成因。
在第五章中,我们进行了简要总结,并讨论了我们的方法未来在天文观测领域可能的发展。