关键词:
健康体检
数据质量
数据处理
子宫肌瘤
流行病学
摘要:
目的:随着社会经济的不断发展,疾病谱和居民健康需求的转变,我国的健康体检数据积累越来越多,但健康体检数据的科研化进程缓慢,数据质量问题是阻碍其进程的重要原因,本研究以子宫肌瘤(Uterine Fibroids,UFs)为例,探索如何对健康体检数据的数据质量进行评价及针对质量问题如何进行适当高效的数据处理;并在此基础上揭示我国女性人群中的子宫肌瘤相关影像学改变的发病率、患病率及其分布特征,并分析子宫肌瘤相关影像学改变发病人群和患病人群的相关危险因素。通过评价展示地市级医院健康体检数据的数据质量现况,为进一步利用健康体检数据进行科学研究提供参考,为优化健康体检数据管理提供思路,并为合理估计我国女性人群不同年龄水平子宫肌瘤发病和患病现况提供数据支撑。方法:通过查阅国内外数据质量评价的相关文献,结合健康体检数据的实际特征,确定本研究中数据质量评价维度和指标。针对某地市级医院2017年10月~2022年12月全部女性体检人群的体检数据,按照已确定的质量评价的维度和指标开展评价,并基于SAS软件给出解决某些质量问题的数据处理方法,并编制宏代码,以期实现数据的高效处理;在数据质量评价和数据处理的基础上,通过专家意见法筛选出子宫肌瘤相关的影像学改变,并将具有任一子宫肌瘤相关影像学改变条目的体检对象定义为病例,进一步计算发病密度、年龄别发病率、患病率、年龄别患病率等。通过单因素logistic回归分析筛选相关因素后(关键变量:身体质量指数(Body Mass Index,BMI)、收缩压、舒张压、血脂和血糖水平),进行多变量逐步logistic回归分析,以估计相对危险度(OR)及其95%置信区间(95%CI)。SAS PROC MIANALYZE用于合并回归分析的结果,并提供回归模型的最终参数估计。为确定子宫肌瘤相关影像学改变的相关因素与年龄之间的差异,对年龄进行了分层分析(≤40岁和>40岁)。连续变量以平均值±标准差表示,分类变量以病例数及其百分比表示。方差分析、t检验和Wilcoxon秩和检验用于检验病例组和对照组之间的差异。所有的统计分析均使用SAS(9.4版,Cary,NC)进行。统计学意义设定为P<0.05,双侧检验。结果:结合质量评价文献,考虑健康体检数据定量的质量评价维度和指标的可行性,本研究确定了健康体检数据的质量评价维度和指标,即“完整性”“代表性”“合理性”“一致性”“时效性”5个评价维度共计10个评价指标。2017年10月至2022年12月共计导出健康体检记录193692条,其中女性的健康体检记录84838条(43.80%),根据子宫肌瘤疾病频率计算及影响因素分析需求,从导出的健康体检数据库中筛选出相关变量137个。定量评价结果显示,与第七次全国人口普查的女性人口年龄构成比较,二者15岁及以上的人群年龄分布没有统计学差异(X2=8.91,P>0.5),健康体检数据的女性人群年龄构成分布比较合理,不存在堆积现象(MI=7.18);健康体检数据的实验室检测指标未见异常值,如血糖、血脂等未见异常值;在健康体检必选项目(基本项目)中,除体检号、姓名、性别、年龄不存在缺失,其他检查指标下的缺失率较大,身份证号缺失率为17.28%(14746/84838),身高缺失37.31%,体重缺失37.39%,身体质量指数BMI的缺失率为37.76%,血脂检测相关指标的缺失率最小为36.25%,最大为37.04%,腹部彩超的缺失率为42.70%;在健康体检非必选项目中,经阴道超声检查的未检查率为77.04%,机体激素水平和维生素D水平未检查率高达98%。且长期连续进行健康体检的人群较少,其中只有一次体检数据记录的人数为55969,有两次及以上体检记录的人次数为14718,定期体检率为26.30%(14718/55969),有三次及以上体检记录的人次数为5951,定期体检率为10.63%(8767/55969)。经过人工测量后录入系统的检测值存在一定程度的异常值,收缩压的异常值发生率为1.05%(559/53082),舒张压的异常值发生率为0.11%(56/51595)。在一致性方面,也可见到同一体检指标重复出现,导出的数据格式不一致等现象(37.68%,52/138),由人工录入的身份证号位数有误、与实际记载年龄和性别存在差异等。针对健康体检数据已有的质量问题可以通过一定的数据处理的方式进行修正和改善,如重复指标可以进行导出后合并、对异常值进行纸质档案核查后修订或直接进行删选、导出格式不一致的指标可以通过统计软件进行核查后修改等,本次研究基于SAS软件提出了针对部分问题的处理办法及详细代码。用地市级医院连续3年的健康体检数据,通过专家函询的方式筛选出与子宫肌瘤最相关的影像学改变条目17个。结果显示,在中国一般人群中,子宫肌瘤的相关影像学改变的