01NHANES高分指标
表型年龄——PHENOAGE
一个用于评估个体生物学年龄的指标,反映了个体的生理状态与实际年龄之间的关系。它综合考虑了多个健康指标和生理参数,因此可以用来更好地反映个体的健康状况。
指标计算方式:
表型年龄是使用实际年龄和9个生物标志物(白蛋白、肌酐、葡萄糖、[log] C 反应蛋白 [CRP]、淋巴细胞百分比、平均细胞体积、红细胞分布宽度、碱性磷酸酶和白细胞计数)计算的。这些生物标志物是使用基于10倍交叉验证的死亡率比例风险弹性网模型选择的。
表型年龄(加速)——PHENOAGE_ADVANCE
指个体的生物学年龄与实际年龄之间的差异,用于衡量老化速度。
计算方法:PHENOAGE_ADVANCE计算为实际年龄回归PhenoAge的残差。
表型年龄相关指标数据,在郑老师团队开发的NHANES Online平台均可一键提取和分析,详情可见:表型年龄和表型年龄加速(加速)
02论文解读
2025年9月11日,北京协和医学院学者用NHANES数据库,在期刊《Geroscience》(医学二区,IF=5.4)发表了一篇题为:“Phenotypic age acceleration as a novel predictor of benign prostatic hyperplasia: a prospective cohort study”的研究论文,旨在探究表型年龄和表型年龄加速对良性前列腺增生(BPH)的预测价值,并开发一个基于机器学习的风险预测模型,为精准预防和临床管理策略提供信息。
研究表明,表型年龄加速是BPH的一个独立的、可改变的危险因素,具有很强的预测价值。
风暴统计公共数据库公众号回复“ 原文”即可获得文献PDF等资料。如需试用NHANES Online平台,欢迎添加郑老师助教vx:aq566665
研究背景
良性前列腺增生(BPH)是一种常见于老年男性的泌尿系统疾病,全球疾病负担逐年加重。传统上认为年龄是其主要风险因素,但近年来BPH发病呈现年轻化趋势,仅凭实际年龄已不足以解释其发病机制。
数据来源
研究基于美国国家健康与营养调查(NHANES)2001–2008年的数据,经过纳排,最终纳入784名具有完整生物标志物数据的男性参与者,其中621例为BPH患者。
此外,外部验证数据来源于NHANES 2001–2002年的数据。
研究方法
研究利用Logistic回归分析表型年龄加速与BPH风险关联。
在构建预测模型方面,研究通过递归特征消除 (RFE)筛选与BPH相关的特征,构建并比较多种机器学习模型(随机森林、Logistic回归XGBoost)预测性能,并利用SHAP值进行特征重要性解释。
主要研究结果
研究通过RFE,共筛选出34个可能与 BPH 相关的特征。
基于此,研究通过三种机器学习算法构建预测模型,其中,XGBoost模型表现最佳(测试集AUC=0.833,验证集AUC=0.707)。
图1 机器学习模型的开发和验证
Logistic回归结果显示,表型年龄与实际年龄显著正相关(r = 0.833),而表型年龄加速与BPH风险显著正相关。
图2 表型年龄动态变化及其与BPH风险的关联
基于上述发现,研究进一步用表型年龄替换了实际年龄,结果显示,XGBoost 模型AUC提升至0.853。
这意味着,相较于实际年龄,表型年龄具有更高的预测效能。
此外,SHAP分析显示,表型年龄是第三重要的预测因子,仅次于癌症史和铅暴露。
图3 使用表型年龄调整XGBoost模型的可解释风险分层
研究结论
表型年龄加速是BPH的独立风险因素,具有良好的预测能力。同时,结合多生物标志物(例如白蛋白和 CRP)的机器学习模型,能有效提升BPH的风险分层精度,尤其适用于年轻人群的早期识别。