公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

SCI一区论文预测模型变量筛选好思路:LASSO与Boruta算法结合

Administrator
发布于 2025-07-23 / 7 阅读
0
0

尽管线性回归是非常常用的分析工具,但它只能估计自变量对因变量平均值的影响。

最近,老郑看了很多文献,发现现在预测模型的文章,多种算法结合进行特征筛选的文章越来越多了。

今天给诸位推荐一个一区SCI特征筛选的好思路,分别使用LASSO回归和Boruta方法进行特征筛选,最终仅选取两种方法均识别出的变量,有助于识别重要特征,减少冗余。

这是值得推荐的!

举几个例子。

构建糖尿病和慢性肾脏病患者的主要不良心血管事件机器学习预测模型发文一区,使用单变量Logistic分析,Boruta和LASSO回归筛选ML分析的特征。最终用于ML分析的特征是基于三种筛查方法,同时考虑临床重要性。

青岛大学学者结合困难腹腔镜胆囊切除术术前CT影像的放射组学特征与临床特征,构建放射学-临床预测模型。

使用Boruta-LASSO算法选择放射学和临床特征的组合。最终确定了模型构建的10个关键放射学和临床特征。

之前我们也报道过采用这种方法的文章。

争议:机器学习临床预测模型,能否绘制列线图?

机器学习预测模型性能差别不大,我首推Logistic回归


特征筛选是模型构建中最困难的环节之一。
是指从众多变量中选取要包含在特定模型中的那些变量,也就是在完整的变量列表中剔除不相关或冗余的变量,选出合适的变量。这样的选择的目的是找出一组变量,使模型达到最佳拟合,从而能够做出准确的预测。

变量选择具有多方面的好处,例如:

  • 提高预测性能:通过选取关键变量,提升模型在预测结果方面的准确性;

  • 效率和成本优势:减少训练和使用模型所需的时间,使获取变量的过程更快速、更经济;

  • 促进数据可视化:较少的变量便于可视化和分析。

今天介绍的两种方法—LASSO回归与Boruta算法都是常用的特征筛选方法。

1.LASSO回归(Least Absolute Shrinkage and Selection Operator)的全称是最小绝对收缩和选择算子。可以用于选择最重要的特征。

它通过在优化目标函数中添加一项惩罚项(L1正则化)来实现稀疏性,使得系数向量中很多特征的权重变为0。通过选择非零系数对应的特征,可以筛选出对目标变量有最大预测能力的特征,从而简化模型,提高模型的泛化能力。

2.Boruta 算法是一种基于随机森林的特征选择方法,其核心思想是通过引入人造特征(影子特征)与原始特征进行对比,来判断原始特征的重要性,从而筛选出真正与目标变量相关的特征。

广泛应用于各种机器学习任务中的特征选择,如分类、回归、聚类等。当数据集中包含大量特征,且需要筛选出与目标变量最相关的特征时,Boruta 算法能够发挥重要作用。

结合两种算法,有助于识别重要特征,减少冗余。当然也要考虑临床重要性!


评论