关键词:
时空数据
流体数据处理
特征分离
数据压缩
摘要:
随着信息科学技术和测量技术的不断进步,获取和处理流体数据的能力得到极大的提高。流体数据领域逐渐走进学者和专家们的视野,越来越多的学者和专家着手于流体数据领域研究。然而,在进行流体数据研究时,实验数据量巨大、数据传输困难是普遍存在的问题,这使得研究工作的进一步开展受到严重阻碍。在对庞大数据规模的流体数据进行存储时,需要相当大的存储空间,为此研究者将数据压缩技术引入到流体数据的研究领域是亟待解决的问题。在进行大规模的流体数据分析时,流体特征识别能够实现一定程度的数据简化。流体特征识别能够滤除流体数据中无关数据,降低流体数据的冗余度,提高流体数据的准确度。目前,现有的流体特征识别方法主要有两种:基于区域的特征识别方法和基于特征轴线的特征识别方法。基于区域的特征识别方法是实现流体特征识别的一种常用方法,该方法适用范围广,可提取流体中各种局部特征,能够使用高效的数值计算技术,提高计算效率。对于流体特征的可视化来讲,基于特征轴线的特征识别方法可以提供非常直观的流线特征展示方式,直观的展示流体特征。但是对于大规模的流体数据,进行基于特征轴线的特征识别的代价太大。基于此,本文提出一种基于时空特性的流体数据处理及数据压缩的研究框架,主要研究内容如下:1.本文设置合适参数结合了四种流体特征识别方法,并提出一种相似性函数,利用该相似性函数来实现流体特征的分组。首先,本文利用结构化网络中流体数据点的速度计算其速度梯度,用于确定速度场的速度变化率。在计算速度梯度的基础上,根据现有的四种基于速度梯度的流体特征识别方法,计算结构化网络中每个数据点的结果值。通过数据可视化实现各个识别算法的阈值选取,并利用四种流体特征识别方法(Δ准则、Q准则、λ2准则和涡量)的结果值和各个识别方法的阈值范围来设置参数。通过设置参数,实现四种特征识别方法的结合,形成具有高准确度的流体特征识别方法。其次,本文提出利用相似性函数对数据区域进行节点分离,以便于数据存储。利用数据是否符合相似性函数对进行特征分离,建立区域相邻节点,后选择一个种子点,根据相似性函数和区域相邻关系对节点进行结合。2.本文提出三种流体数据压缩算法,这三种压缩算法分别称为数据-位置-个数算法(DLC算法)、新的数据-位置-个数算法(NDLC算法)和基于时空特性的流体数据压缩(TS算法),并采用这三种数据压缩算法对时空流体数据进行数据压缩的效果对比。首先,本文先提出一种数据-位置-个数(Data-Location-Count)DLC的数据压缩算法,该算法通过统计流体数据在时间和空间维度上都连续重复出现的位置以及次数来实现数据的压缩存储。在实现数据存储时,该方法是使用三元组表结构来实现流体数据存储。但是,由于流体数据存在多种数据类型,本文设置采用多个三元组表实现流体数据存储。其次,本研究发现流体数据在经过数据剪枝的初步处理后,时空流体数据中存在大量的0元素,因此,本文提出一种新的数据-位置-个数(New-Data-Location-Count)NDLC的数据压缩算法,该方法只是在DLC的基础上舍弃零元素的存储。最后,本研究发现时空流体数据在时间维度上可能重复出现,但是它在同一个时间空间维度上不一定重复出现,因此,本文提出了一种基于时空特性的流体数据压缩算法。该方法通过流体数据在时间和空间维度上合并和权值量化以实现流体数据的压缩。最终,结果证明该方法在时空流体数据上具有很好的数据压缩能力。本文提出一种基于时空特性的流体数据处理即数据压缩方法,主要是通过流体特征识别降低数据冗余,然后采用数据压缩算法减少数据所占空间。在特征识别和特征那个分组上,本研究的创新性在于本论文提出采用参数设置来提升流体特征的准确度,并提出一种相似性函数,本研究利用该相似性函数实现流体特征的分组。在数据压缩方面,本研究的创新性在于本研究提出DLC压缩算法、NDLC压缩算法以及基于时空特性的数据压缩算法。虽然DLC压缩算法、NDLC压缩算法的压缩能力一般,但是其数据损失率低。基于时空特性的流体数据压缩算法在时空流体数据的数据压缩方向取得令人满意的结果流体,这为时空流体数据提供了一种新的压缩算法,降低数据存储所占空间,解决流体数据因数据量巨大难以将数据存储的问题。