数据处理-专题定制-三峡大学图书馆

吴悠

电子科技大学

摘要： 在互联网与大数据的时代,网络与存储常常处于密不可分的应用场景中。从直接面向终端消费者的云盘、视频社交媒体平台,到数据中心内部的分布式对象存储、块存储和文件系统服务,将网络数据进行存储,亦或将存储的数据发送到网络,这样的应用场景可谓无处不在。在此应用场景下,日益增长的用户数量、数据规模以及服务质量要求推动着网络与存储硬件性能的不断提升。尤其是持久性内存的出现,将存储设备的访存性能提升到了可与主存相比的水准。然而将网络数据进行存储的过程中,还存在着软件开销。数据依次经过网卡驱动、内核网络栈、用户态缓存、内核存储栈和存储设备驱动,这些环节都由软件处理。这条I/O路径很长,且存在多次中断处理、系统调用、数据拷贝开销,带来的延迟可能高达数十μs,相较于新型网络与存储设备不到10μs级别的延迟,已成为新的性能瓶颈。针对这个问题,虽然目前已有许多研究,并提出了包括内核旁路、硬件卸载、内核存储栈优化等多种优化方案。但是这些方案未能将网络栈与存储栈融合为一个整体进行优化,未能充分发挥持久性内存对于双栈融合的关键性作用,同时在CPU资源消耗、易用性、灵活性和扩展性等方面也存在进一步改善的空间。为了改善现有优化方案的上述问题,本文提出了一种工作于内核态的双栈融合高性能数据处理框架Fusion Stk。该框架利用持久性内存将网络栈和存储栈缓存合二为一,实现了双栈整体优化。在此基础上,该框架允许用户将延迟敏感的关键路径操作卸载到处理网络数据包的软中断上下文中,在方便地利用内核现有基础设施的同时,最大程度缩短I/O路径,降低操作延迟。然而,持久性内存的引入让Fusion Stk的内存管理在编程模型、故障一致性保证、分配释放操作性能等方面面临新的挑战。为此本文还提出了一种新的持久性内存堆管理方案Fusion PM,能够在不改变当前内核内存管理相关接口,不降低内存分配释放操作性能的前提下,保证持久性内存管理的故障一致性。最后,本文基于该框架实现了一个高性能块存储服务应用原型Fusion Blk,并与基于传统网络栈和存储栈的实现进行了性能对比测试和结果分析。测试结果显示Fusion Blk的随机写操作的平均软件处理延迟为16.584μs,远低于传统实现的51.542μs,并且随机写带宽可达到测试环境下网卡接收带宽上限。

基于改进HHT算法的微震数据处理及上位机软件设计

柏易欣

西南科技大学

来源详细信息

关键词： 微震小波阈值降噪改进HHT 能量比值法上位机

摘要： 微震信号在地震监测、油气勘探等领域具有重要的应用价值。然而,由于微震信号经常受到噪音的干扰,其时频分析的准确性和可靠性存在一定的挑战。因此,本文提出了一个种改进的希尔伯特黄算法(Hilbert-Huang Transform,HHT),以提供高微震信号的时频分析效果。改进的HHT算法首先采用小波阈值降噪对原始微震号进行预处理。该方法使用小波变换将信号解析为不同尺寸的分量,并通过设置合适的阈值去除掉很小的分量,从而增强信号的质量和清晰度。接下来,利用改进的HHT算法对预处理后的信号进行时频分析。HHT算法通过将信号解析为一组本征模态函数(Intrinsic Mode Function,IMF)并计算其瞬时频率来获取信号的时频特性。然而,由于噪音的存在,传统的HHT算法在微震信号分析中可能存在错误。为此,本文引入了能量比值的方法来识别并消除虚假分量,从而提高了时频分析的准确性。为了验证改进的HHT算法的有效性和实用性,本文还设计并实现了一个基于Qt的上位机软件。该软件用于接收和处理微震信号,并集成了改进的HHT算法作为信号处理的核心。通过该软件,研究人员可以方便地获取和分析微震信息,并获得更准确的时频特性。实验结果表明,使用改进的HHT算法进行微震信号的时频分析可以有效地提供高信号的清晰度和分辨率。与传统的HHT算法法相比较,应该改进算法能够准确认识和剔除虚拟假分量,提供更准确的时频特性分析结果。同时,设计的上位机软件为微震信息的获取和处理提供了便捷的工具。综上所述,本文提出了一种改进的HHT算法,并设计了一个基于Qt的上位机软件用于微震信号的接收和处理。过小波阈值降噪和能量比值识别虚拟假分量的方法,提高了微震信号的时频分析结果。实验结果表明,该算法在提高信号质量上具有良好的性能,为微震信号的应用和研究提供了有价值的工具和方法。

高中信息技术项目式数字化学习资源的应用——以必修1“数据处理与应用”单元为例

王文涛

富川瑶族自治县高级中学

来源详细信息

离子阱质谱仪质量轴精度软件校正技术研究

裴泓明

沈阳化工大学

来源详细信息

关键词： 质谱数据处理 Savitzky-Golay 自动分段校正算法 Levenberg-Marquardt算法

摘要： 质谱分析中对于待测物质定性定量的主要依据便是质谱图。谱图信号的数据由待测样品经过离子源电离、质量分析器选择、检测器收集与信号板处理等过程产生,容易受到射频信号干扰,以及电离离子在检测器中会产生空间质量效应等因素的影响,从而影响质谱分析结果,因此质谱数据处理的性能和方法直接影响了质谱分析结果的准确性。通过数据处理算法对数据进行优化处理,是发挥仪器性能,提升质谱仪精准度的重要步骤。本文将质谱技术与计算方法相结合,利用不同算法对质量轴精度软件校正技术进行研究。首先针对质谱信号的噪声问题,基于Savitzky-Golay平滑算法进行了改进,对S-G滤波窗口进行了自动调节处理,实现了对质谱数据更好的平滑预处理;针对质谱仪质量校正分段校正模式中手动分段效率低的问题,本研究在手动校正的基础上设计了一种自动分段校正算法,以提高校正精度及方便人员快速操作。算法利用逐点拟合来判断分段区间是否符合要求并确定各分段区间,同时使质量轴自动分段以减少各检查点的质量偏差;其次针对离子阱质谱仪离散数据点描绘质谱峰时,峰形参数采集偏差的问题,基于Levenberg-Marquardt算法对现有质谱峰进行高斯拟合处理,以降低质谱峰参数的相对标准偏差(RSD);最后对数据处理过程中遇到的因分辨率不足导致的重叠峰问题进行了研究,引入了Fourier自去卷积算法及分辨率增强算法结合Levenberg-Marquardt算法分别对模拟合成信号进行了子峰识别运算,成功分离了各子峰并分别获得各子峰的峰形参数,对样品的定量分析提供了更加有效的手段。系统实际测试表明,本文算法可对信号中的随机噪声进行有效抑制,提高信噪比,最终提高仪器测量精度,校正效率及测量精度,降低了人员操作难度。

预测性分析 : 基于数据科学的方法 : data mining, machine learning and data science for practitioners

(美) 杜尔森·德伦

来源三峡大学图书馆图书详细信息

计算机信息技术与大数据应用研究

王群罗军娜侯贺

来源三峡大学图书馆图书详细信息

四极杆质谱仪器的数据处理算法研究与软件开发

羌子涵

北方工业大学

来源详细信息

关键词： 四极杆质谱仪器数据处理软件开发 CAN通信校正算法

摘要： 四极杆质谱具有灵敏度高、特异性好、分析速度快等特点,本文以实验室研发的电感耦合等离子体质谱(ICP-MS)作为实验平台,对数据去噪、基线校正、谱峰识别、仪器校正以及控制软件的开发进行了研究,结合课题需要,设计并实现了ICP-MS的上位机软件。本文对质谱软件的去噪算法、基线校正算法及谱峰识别算法进行了研究。针对ICP-MS信号的噪声问题,对小波阈值去噪算法的阈值、小波基和分解层数进行了优化,经比较验证,优化后的算法具有较好的去噪性能。针对检测信号的漂移问题,基于形态学滤波,实现了White Top-hat filter基线校正算法,经比较验证,该算法可以很好地去除质谱信号中的漂移。针对如何将峰与背景分离,提取其关键特征的问题,设计实现了基于信噪比的局部极大值谱峰识别算法,该算法能够有效地识别质谱峰并排除偶然噪声引起的误差。针对质谱仪器质量轴漂移和分辨率变化的问题,通过研究四极场及马修方程,提出了一种通过调节校正参数,间接调整四极杆RF、DC扫描电压,从而实现质量轴分辨率校正的方法。该方法以扫描过程中谱峰识别算法所获得的质量轴误差与10%峰宽作为判断条件,对校正参数进行循环微调,直到质量轴误差处在±0.1amu范围内,10%峰宽处在0.65～0.80 amu范围内;针对质谱仪器双模式检测器的脉冲、模拟校准曲线各具线性但不衔接的问题,提出了一种检测器交叉校正的方法,该方法在扫描中获取元素的P/A因子,并基于贝叶斯信息准则选择拟合阶数对P/A因子进行曲线拟合,未校正元素的P/A因子从拟合曲线上取值。结果表明,这两种校正方法有助于优化四极杆质谱仪器的性能,提高测量的准确性和稳定性。基于前期工作及本文的研究成果,设计并完成了软件的开发工作。该上位机软件具有参数设置与状态监测、扫描与谱图绘制、校正、存储等功能,并通过测试验证了该软件满足仪器的应用需求,具有良好的稳定性和可拓展性。

风电场SCADA数据处理与风电机组功率特性研究

左程明

湖南科技大学

来源详细信息

关键词： SCADA数据风电场风电机组集群数据处理功率特性

摘要： 随着“双碳”战略的实施,风电产业发展受到高度重视。风电机组运行环境恶劣,高效安全运行是行业重点关注事项。随着风电机组大型化趋势日益加剧,在实验室内进行风电机组有关试验研究愈加受限,利用现场SCADA数据挖掘分析风电机组实际性能成为当前研究的热点。然而,SCADA数据因其自身特性一般不能直接用于风电机组有关性能分析,进行SCADA数据预处理是相关研究前提。本文从风电场SCADA数据预处理出发,深入开展风电机组的功率特性分析,为风电机组设计、控制和运行维护提供重要参考依据。主要内容和创新如下: (1)提出一种风电机组SCADA数据三阶段预处理方法。将SCADA数据的预处理划分为数据初次过滤(第I阶段)、数据二次过滤(第II阶段)和数据单值化处理(第III阶段)三个阶段,其目的是提高数据处理的可靠性。在第I阶段,主要是基于基本判据进行工况数据筛选并剔除不符合机组行为的数据。在第Ⅱ阶段,基于Binning方法进行数据二次过滤,剔除远离主数据带的数据。在第Ⅲ阶段,基于Binning方法完成散点数据单值化处理,获得能够表征机组性能的数据映射关系。 (2)构建了基于数据补偿的风电机组功率曲线模型,提出基于风电机组能量一致性的评价指标。推导了机舱测风仪风速与功率之间的关系表达式,从理论上证明了对机舱风速进行补偿的必要性。然后,以风速补偿数据为基础进行数据预处理并构建功率曲线模型,重点讨论了不同分箱基准和分箱模式对数据处理的影响。从能量的角度分析了“风速-功率”“风速-转速”和“转速-功率”三者间的一致性特征,提出基于一致性特征的数据预处理效果评价指标。最后,从单台机组和多台机组的角度分析了不同数据处理方法的优缺点。 (3)开展了多工况条件下的风电机组功率特性分析。根据风电机组运行特征,将其划分为启动工况、最大风能捕获工况、恒转速工况和恒功率工况。从时间序列和统计数据两个角度分析了不同工况下变桨距行为对风电机组功率特性的影响。同时,分析了不同偏航角区域内风速与功率之间的关系以及不同工况下偏航角大小对风电机组功率特性的影响,获得了对多工况条件下风电机组功率特性的新认识。 (4)分析了山地风电场风电机组集群的功率特性。选取南方某山地风电场,统计分析了风能资源时空分布特征,包括风速时空分布特征、风向时空分布特征和风速风向联合分布特征。然后,从服役时间和地理空间特征将整个风电场机组划分为5个集群,从发电量、电能利用效率、运行稳定性和风能资源利用效率等多个角度设计选取了相应的功率特性评价指标,分别对单集群内的风电机组功率特性以及多集群间的功率特性进行了分析。

基于自由环境下可穿戴智能的帕金森病精准诊断技术研究

陶柳

云南大学

来源详细信息

关键词： 帕金森病帕金森诊断框架数据处理异常检测活动组合及分类算法

摘要： 研究表明，帕金森病（PD）的患者数已经高达500万人。随着物联网等硬件技术的发展，可穿戴式传感器技术为帕金森疾病的研究带来了新的研究方向。然而，从本文的研究中发现，基于可穿戴智能的帕金森疾病研究仍然面临众多挑战。由于帕金森病患者大多处于离院环境，其活动监测涉及到移动物联网中连接的生活记录数据具有精准度低、难标注、高不确定性和复杂的动态环境影响等特点，使得在院环境下的传统帕金森诊断框架无法有效的实现离院检测。因此，针对自由环境下可穿戴智能的帕金森病精准诊断技术存在诸多问题。例如，如何进行数据采集标准化方法的研究（即采集患者的何种活动数据以及如何进行预处理以满足下游任务的需要）？如何通过异常活动检测机制，对异常信号进行筛选并进行处理？如何处理医生所给的粗粒度标签与模型操作使用的细粒度标签所不匹配的问题？此外，由于帕金森病活动数据集的稀缺，针对本研究组采集的帕金森患者数据，哪些活动组合对特定问题的研究更有效？哪些分类算法比较适合？以上问题都为自由环境下可穿戴智能的帕金森病精准诊断技术研究带来了严重阻碍，本研究在三年的时间里，基于可穿戴设备共采集了53名帕金森患者和70名健康人的16种活动数据，并提出帕金森疾病精准诊断的框架，其中包括数据采集标准化方法研究、异常处理算法研究、分类及活动组合算法研究。具体来说，本文工作和贡献如下： (1)提出了一个在自由环境下可穿戴智能的帕金森病疾病精准诊断框架。该框架包括了从数据采集到病情分类的一系列方法研究。提出的框架主要由三大部分组成，包括数据采集及预处理方法研究、异常分析及处理研究、活动组合及病情分类研究。 (2)结合专家建议，本文针对数据采集制定了详细的方案。该方案包括16种活动的设计，这些活动对于后续的任务具有重要意义，并且考虑了动作和传感器规范规则，以确保数据的一致性和可比性。在为期三年的时间里，本研究团队共采集了53名PD患者和70名健康人的16种活动数据。此外，本文还详细描述了数据收集和处理过程。该过程为后续的研究工作提供了可靠的数据基础。这些数据的采集和处理过程的详细描述，使其他研究人员能够理解并重复这些步骤。同时，这也为后续的数据分析和模型构建提供了可靠的输入。 (3)在本文的研究中，发现原始数据存在着不同类别的异常数据导致下游任务的实现存在障碍。本文分析并总结了异常产生的原因，并设计了一个异常处理模块来检测并处理异常，这些异常包括样本异常和标签异常。具体来说，设计了一种聚类方法并结合OCSVM（一类支持向量机）对异常数据进行检测并处理。实验证明，经过本研究增强后的数据较原始数据在分类性能上提升了50%-60%左右。 (4)针对现有研究较少的PD患者与健康人的二分类任务以及PD患者病情严重程度的多分类任务，分别设计了相应的方法实现了这两个下游任务。对于区分PD患者和健康人，本文通过设计一种活动组合方法在精简活动数据类型的同时来有效完成这一分类任务。对于PD患者病情严重程度分类任务，本文利用D-S理论（Dempster-Shafer evidence theory）设计了一种多信息融合方法实现这一任务。实验证明，本文提出的方法/方案能够有效的实现这两个下游任务，为PD病情诊断研究迈出一大步。

四通道动态信号数据处理逻辑电路优化设计

卿楠

电子科技大学

来源详细信息

关键词： 动态信号分析仪可变带宽处理通带补偿触发存储

摘要： 动态信号分析仪是一款高性能的机械、声学、力学信号处理与分析仪器,具有大动态范围、多模式分析、带宽可变等优点。该仪器能够快速、准确地完成数据采集、存储和实时分析操作,在信号处理、声学测试、故障诊断等领域发挥重要作用。本文针对基带信号、声学信号、旋转机械振动信号等动态信号的处理需求,提出了相应的数据处理方案,并结合触发存储的系统功能,完成了基于FPGA的动态信号处理逻辑设计与优化。具体研究内容如下:(一)基带数据处理与传输方案的设计:针对动态信号分析仪5种不同的工作模式(FFT分析、倍频程分析、阶次分析、相关分析、直方图分析)的算法需求,通过数字下变频与多级抽取结构完成可变带宽设计,并实现了选带细化与频带搬移功能。在数据处理过程中,采用了CIC补偿滤波器以确保通带平坦度,同时对信号位宽进行有效截断,提高计算精度。系统采用PCIe传输接口完成上位机和逻辑电路之间的数据交互,并对指令进行统一规划和分类,开发了相应的控制协调操作机制,实现更高效的数据处理与传输。(二)触发存储功能的逻辑设计:为了满足不同应用场景下用户对特定信号捕获的测试需求,动态信号分析仪设计了通道触发、源触发、GPIB触发等多种触发模式,并优化基带数据的触发捕获逻辑,有效截取触发时刻前后的波形数据。结合外部DDR3存储器,本文提出了深存储方案,存储模块充分利用内部地址,进一步优化触发机制,消除了内部资源问题带来的预触发深度限制。此外,存储模块还加入了重叠帧设计,解决了窗口效应和窄带数据刷新率缓慢的问题,显著提高了动态信号分析仪的性能。基于动态信号分析仪测试平台,对各个模块进行了功能性测试和指标分析。测试结果表明,优化后动态信号分析仪的动态范围达到120d B,滤波后信号通带平坦度小于0.1d B,分析带宽、中心频率、频率分辨率等参数可根据测试需求切换,并且源触发功能保证了激励源信号的稳定显示,深存储模式下的最大存储深度可达256Mpts。

科研专题资源库更多>>

数据处理

限定内容

核心刊收录

日期分布

学科分类号

主题

机构

作者

语言

专题定制

科研专题资源库 更多>>

数据处理

限定内容

核心刊收录

日期分布

学科分类号

主题

机构

作者

语言

专题定制

科研专题资源库更多>>