关键词:
异构计算
硬件加速
生物序列
序列检索
序列比对
摘要:
生物序列检索与分析旨在解析生物序列中潜藏的多维度信息,研究对象包括DNA、RNA、蛋白质序列等,在生物医学中具有广泛应用。随着测序技术的发展,生物序列的数据规模呈爆炸式增长,因此,对大规模生物序列数据进行高效的检索与分析,在生物信息学领域具有重要意义。生物序列检索与分析过程具有数据密集型、计算密集型的特点,通用计算机受编程模型、数据传输带宽和并行度等的限制,在当前芯片主频提升缓慢的时代难以高效地处理海量、快速增长的生物序列数据。而异构计算在软硬件协同、算法定制、流水线并行、响应时延等方面有明显的优势,可以对生物信息学中的各类特异性需求进行算法与处理流程的定制优化,已成为该领域一个新的发展趋势。针对大规模生物序列高效检索与分析的需求及其高性能实现的难点,本文的主要工作与创新点如下:为实现大规模生物序列的高效检索与分析,本文提出了一种面向生物信息精确检索与序列比对一体化的异构计算体系结构。该体系结构基于指令与数据解耦的传输模型和索引与元数据分离的存储模型,通过指令解析、索引数据管理、元数据管理、加速引擎管理等四个功能模块,联合序列检索和序列比对两个关键算法加速引擎,实现序列数据的快速存储、检索与比对,从而支撑大规模生物序列数据的全流程高效分析。为在海量数据中快速精确检索目标数据,本文研究了不同场景下数据存储与检索的硬件加速方法:面向一对多数据检索关系,本文提出基于多哈希通道的数据多级存储算法及其流水线并行实现结构,确保了数据在存储与检索时具有可控的内存访问次数上限;面向多对多数据检索关系,本文提出基于哈希函数的预分区排序合并加速算法及其高并行度实现结构,有效缩小了排序与合并阶段的数据处理规模。实验结果表明,本文提出的两种硬件加速算法较现有算法均取得了两倍以上的吞吐率提升,同时有效降低了资源和功耗开销。为对大规模生物序列分析基础步骤中的多序列比对过程进行加速,本文提出了基于渐进式多序列比对的并行加速算法:首先,构建一种仿射空位罚分策略下的最优比对路径完全回溯方案,解决了现有研究在双序列比对中存在的比对移位问题;之后,通过分析同源关系计算、指导树构建、逐级双序列谱比对等阶段的数据依赖关系和计算处理逻辑,构建了针对渐进式多序列比对的整体性异构计算加速算法。实验结果表明,所提出的多序列比对加速算法有效提升了求解效率。本文以精确检索与序列比对一体化的异构计算体系结构为核心,从存储管理、高效检索及高性能比对三个层面,构建完成了大规模生物序列信息处理实验验证平台。实验结果表明,相较常规的生物序列处理方法,本文提出的体系结构能够实现序列检索与比对的显著加速,可为生物序列处理提供一套高效的算法与工具支撑,为生物信息学领域的高性能计算研究提供一种新思路和技术路径参考。