公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

利用轨迹模型+机器学习构建预测模型,乱花渐欲迷人眼

Administrator
发布于 2025-07-29 / 9 阅读
0
0

常规机器学习分析的文章大家都看了不少了,今天给大家分享一篇基于4种不同中国青少年受欺凌的受害者轨迹,使用常见的随机森林(RF)法构建预测模型。

先来看看本文的研究设计吧:

1.数据收集与处理

  • 对于缺失的数值型数据,使用中位数进行填充;

  • 对于缺失的分类型数据,使用众数进行填充;

  • 针对参与者分布不均衡的问题,使用随机过采样法来平衡数据集。

2.轨迹分析——组轨迹模型(GBTM)

  • 基于每次调查的总受害分数,测试了2~5个组的轨迹模型;

  • 通过贝叶斯信息准则(BIC)、赤池信息准则(AIC)和对数似然(LL)确定了最优组数。

3.模型的构建与评估

  • 数据集被分为70%训练集和30%验证集;

  • 使用多个指标评估模型性能,包括准确性、灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)和ROC的曲线下面积(AUC)。

4.特征重要性评估

老郑有个疑问,对估计模型进行建模,合理吗?

据报道,全球约28.9%的13至15岁青少年曾遭受过欺凌。而在中国,欺凌更是造成青少年患精神障碍的首要原因。

随着年龄的增长,部分青少年摆脱欺凌,而部分却继续受到迫害,更有甚者从受害者转变为加害者。因此,研究团队基于不同的受害者轨迹构建预测模型,旨在为不同的受害者量身定制反欺凌干预措施。

11月21日,中国学者在期刊Journal of Affective Disorders》(医学二区top,IF=4.9)发表了一篇题为:“Predictive analysis of bullying victimization trajectory in a Chinese early adolescent cohort based on machine learning”的研究论文。

在该项研究中,研究团队使用组轨迹模型(GBTM)确定了四种不同的受害轨迹,并用机器学习法中的随机森林(RF)法构建一个预测模型,用于预测个体可能遭受的欺凌受害轨迹。

如果你需要全文,请医学论文与统计分析公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过本月底的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665

数据收集与处理

√数据收集

在该项研究中,研究团队从中国安徽省淮北市进行的早期青少年队列研究中招募了1549名完成基线和两年随访评估的中学生(60.4%为男生;平均年龄12.49 ± 0.48岁),时间跨度为2019年至2021年共三年。

使用改编的Olweus欺凌受害者问卷(OBVQ)评估欺凌受害情况:

  • 问卷通过涵盖身体、言语和社会关系欺凌的六个项目来评估传统形式的受欺凌程度;

  • 回答范围从“从未”到“6次或更多”不等,总分在6到24分之间,分数越高表示受欺凌程度越深。

√缺失值的处理

对于数值型的缺失数据,使用中位数进行填充;分类数据,则用众数进行填充。

考虑到参与者分布中的类别不平衡会对模型的性能产生不利影响,研究团队采用随机过采样法( ROSE)来平衡数据集。

  • 主要通过平滑的自举方法来生成合成数据,从而平衡数据集的类别分布,提高模型的预测性能。

图1 研究流程

轨迹模型

研究团队基于以往的研究实践,纳入2019年至2021年收集的三波数据,使用GBTM识别欺凌受害者轨迹的变化。

  • 根据每年收集的三波总受害分数,对2到5组的轨迹模型进行了测试;

  • 并用贝叶斯信息准则(BIC)、Akaike信息准则(AIC)和对数似然(LL)在内的标准确定最佳组数,BIC、AIC和LL值最低的模型最佳。

研究结果显示,4组的GBTM模型最佳,BIC(-6803.29)最低

√构建轨迹模型

确定的4组轨迹模型如下:

  • 未受害组(43.0%):该组受欺凌程度最低,平均受害得分接近6;

  • 低受害轨迹组(52.1%):该组受欺凌程度略高于未受害组;

  • 受害程度逐渐增加组(2.8%):随时间推移,该组受害程度不断增加;

  • 持续严重受害组(2.1%):该组在研究期间一直受到严重的欺凌,是四组中受害程度最严重的。 

图2 4组受害者发展轨迹

模型的构建与评估

在填补完缺失数据后,数据被随机分为训练集(70%)和验证集(30%)。

研究团队基于随机森林法(RF)构建受害者轨迹的预测模型,并用多个指标评估模型性能。

  • 评估指标包括准确性、灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)和ROC曲线下面积(AUC)。

研究结果表明,基于RF构建的预测模型在区分不同受害轨迹方面表现出理想的性能,所有组均达到AUC >0.8。

表1 4个不同轨迹模型中预测模型评估指标

筛选重要特征

√可视化工具:使用"randomForestExplainer"包可视化RF模型中重要特征。

√多维度评估:用多个指标从不同角度评估特征重要性(包括节点数量、平均最小深度、准确度下降、基尼系数下降、Xj用于分割根节点的频率(times_a_root)以及p值)

下图展示了RF模型中最重要的十个特征,其中前五个关键预测因素为敌意、边缘性人格、易怒、在校不良经历和学校满意度。

图3 对于重要的变量,最小深度在森林图中的分布

多向重要性图结合了准确性降低指标和基尼系数降低指标,进一步证实了10个关键预测因子在预测欺凌轨迹方面的重要性。

图4 多向重要性图分析结果(结果可见粉红色圆圈;P< 0.01)

值得一提的是,尽管“randomForestExplamer”包提供了功能交互分析,但在该项研究结果中,我们并未在变量之间观察到显著的交互作用。

研究团队进一步使用多元逻辑回归分析,评估了RF模型识别的关键预测变量对四种欺凌轨迹的贡献。研究结果显示,预测因素在不同的轨迹亚组中表现出不同的影响。

  • 与低受害组相比,持续严重受害组不仅年龄更大,而且边缘性人格特征更显著以及更加易怒,同时他们对学校的满意度相对较低;

  • 相反,同伴满意度的降低则与欺凌受害轨迹的增加负相关;

  • 此外,学校中的不良经历与持续严重欺凌受害之间的关联最为紧密,这些不良经历使得个体遭受持续严重欺凌的可能性增加了约2.7倍。

图5 欺凌受害轨迹的逻辑回归结果

综上所述,研究表明,由于欺凌程度发展的差异,其导致的严重后果在个体之间差异很大。此外,某些受害者特征,如不受欢迎和同伴排斥,可能会限制一般干预措施的有效性,因为这些特征降低了接受同伴支持的可能性,并导致持续的受害。

研究团队认为,我们仍需要进一步的研究,区分欺凌发展的模式,并确定与每种模式相关的具体风险和保护因素。

老郑小评

说实话,我不是那么苟同这种数据分析的过程,我们构建预测模型的时候,结局一般是金标准或者硬终点才合适。

而这项研究的终点就是数据驱动下,利用轨迹模型做出来的,结局的分类就是不可靠的,预测它实在有点牵强。

不过,有一点还是可以肯定的,用随机森林的方法去分析,影响轨迹的因素,哪个最重要。并在此基础上,开展logistic回归分析,计算OR值。

但问题又来了,随机森林评估哪个因素最重要是以一种非线性的地方式,而logistic是线性分析的结果,两者一致吗?

但是,总的来说,这年头只要你把数据分析玩出花来,文章还真不错。

乱花渐欲迷人眼,这两年流行方法机器学习、轨迹模型一结合,虽然看起来四不像,还真的图文并茂,学术研究的探索性魅力,就在于此。


评论