
背景:脓毒症并发ARDS显著增加发病率和死亡率,重点需要建立稳健的预测模型来加强患者管理。
方法:我们从MIMIC IV数据库中收集了6390名患有脓毒症并发ARDS的患者的数据。在进行严格的数据清理(包括异常值管理、处理缺失值和转换变量)后,我们进行了单变量分析和逻辑多元回归。我们采用LASSO机器学习算法来识别与患者结果密切相关的风险因素。然后使用这些因素开发新的临床预测模型。该模型经过初步评估和内部验证,并使用来自中国一家大型三级医院的225名患者的数据通过外部验证进一步测试了其性能。此次验证评估了模型的鉴别力、校准和净临床效益。
结果:该模型以简明的列线图表示,在内部验证集中的曲线下面积(AUC)为0.711,在外部验证集中的曲线下面积(AUC)为0.771,表现出显著的鉴别力,优于SOFA和SAPS II等传统严重程度评分。它还显示出良好的校准和净临床效益。
结论:我们的模型是识别住院死亡风险高的脓毒症并发ARDS患者的宝贵工具。这可以实现个性化治疗策略的实施,从而改善患者的预后。
背景
脓毒症是一种危及生命的疾病,仍然是全球危重患者死亡的主要原因。约30%的诊断为脓毒症的患者继续发展为急性呼吸窘迫综合征(ARDS),与其他并发症相比,其显著增加了死亡率。临床预测模型是风险评估的创新工具,通过特定公式估计当前状况或未来患者结局的可能性。这些模型为医疗保健专业人员和患者提供直观和基于证据的信息。已经开发了各种模型来评估与脓毒症及其并发症相关的预后风险。本研究旨在通过分析MIMIC数据库中的数据来确定脓毒症并发ARDS患者,并分析院内死亡率的相关风险因素,从而解决研究空白。我们利用多变量逻辑回归建模和机器学习算法的组合来选择临床相关性的关键预后指标。基于这些指标,我们构建了一个预测模型来估计脓毒症相关ARDS患者的院内死亡风险,然后进行了内部验证。此外,我们回顾性收集了中国辽宁省一家三级医院脓毒血症并发ARDS患者进行模型外部验证,以评估其临床适用性和价值。本研究旨在开发一种稳健且具有临床价值的预测模型,用于评估脓毒症并发ARDS患者的院内死亡风险。
方法
1.数据库和研究人群
本研究的所有临床数据均来自两个不同的来源:MIMIC IV v2.0和中国辽宁省一家大型三级医院的ICU,这两个数据集是完全独立的。来自MIMIC数据库的临床数据用于构建和内部验证预测模型。来自辽宁省大型三级医院ICU的数据用于预测模型的外部验证。
2.数据提取
我们收集了符合入选标准的患者数据,分为以下类别:基本信息(入院和ICU入院时间、死亡日期(如死亡)、性别、年龄)、生命体征(心率、呼吸频率、体温、收缩压和舒张压、平均动脉压)、疾病评分(SOFA,SAPS II,Charlson合并症指数,CCI)和实验室检查(白细胞计数,血红蛋白,红细胞压积,血小板计数,碳酸氢盐,血尿素氮,血清肌酐,钠,钾,血糖,凝血酶原时间,活化部分凝血活酶时间,国际标准化比值,pH值,氧饱和度,动脉氧和二氧化碳压力,尿排出量)。此外,我们还记录了合并症(心肌梗死、充血性心力衰竭、外周血管疾病、脑血管疾病、痴呆、慢性肺病、风湿性疾病、消化性溃疡、肝脏疾病、糖尿病、瘫痪、肾脏疾病、恶性肿瘤、艾滋病)和干预措施(使用血管加压药、CRRT)。为了确保数据分析的准确性和可靠性,所有变量值都是根据ICU入院时的首次测量值选择的。采用这种方法是为了消除ICU入院后发生的任何干预对变量值的潜在影响。
3.缺失值和离群值处理
第一步评估每个变量中缺失数据的程度。超过20%的观察结果缺失的变量从数据集中完全删除。设定该阈值是为了保持数据完整性并确保统计分析的稳健性。对于缺失数据占观察结果不到20%的变量,采用多重插补来管理缺失条目。多重插补涉及通过用基于其他可用数据的估计值替换缺失值来创建几种不同的合理插补。使用R语言进行缺失值的可视化和处理。随后进行了离群值检测和处理。我们检查了每个指标的数据分布,并使用四分位数、最小值和最大值以及平均值±标准差进行展示。为了减轻离群值对数据分析的影响,对于具有显著极高或极低值的指标,我们将数据保留在1%-99%的范围内。
4.数据处理
我们将与预后呈非线性关系的连续变量转化为基于其数据分布类型和临床意义的分类变量。进行这种转换的变量包括心率、平均动脉压(MAP)、呼吸频率、体温、pH值、尿量和血糖。按照7:3的比例随机分配从MIMIC数据库获得的临床数据。训练集包括总样本的70%,并用于多元回归分析和模型构建。其余30%的病例数据构成内部验证集,用于验证开发的预测模型。此外,使用来自中国辽宁省三级医院的脓毒症并发ARDS患者数据作为外部验证集,以使用独立的外部数据进一步验证预测模型。
5.变量选择和模型构建
根据住院死亡率将患者分为两组,并比较两组之间的变量。在变量选择阶段,对所有变量进行单变量分析,使用p<0.1的阈值选择与住院死亡率相关的变量。将这些选定的变量进一步纳入Logistic回归模型进行多变量分析。基于Akaike信息标准(AIC),使用全模型、前向选择、后向消除和逐步回归方法构建多元Logistic回归模型。以p<0.05的阈值选择变量。此外,LASSO机器学习算法用于变量选择,考虑到所选变量的临床意义,选择最终的一组变量用于构建预测模型。使用受试者工作特征曲线(ROC)曲线下面积(AUC)、校准曲线和决策曲线分析(DCA)对模型进行内部和外部验证,以评估具有最佳诊断价值的模型的临床有用性和净效益。此外,对新开发的预测模型、SOFA评分模型和SAPS II评分模型的预测性能进行了比较分析。
6.统计分析
正态分布的连续变量总结为平均值±标准差,而非正态分布的连续变量总结为中位数。使用Kolmogorov-Smirnov检验评估连续变量的正态性。对于非正态分布的连续数据,使用t检验或Kruskal-Wallis H检验进行比较。分类变量可计量性表示为数字或百分比,并根据样本量使用卡方检验或Fisher精确检验进行评估。所有分析均使用R软件进行,显著性水平为p<0.05,但单变量回归分析使用p<0.1的阈值进行变量选择。
结果
1.基线特征

Fig 1患者选择和数据处理分析流程图




表1脓毒症并发ARDS患者的基线参数比较
只有少数人口统计学变量、一部分检验结果、血气指标、部分合并症没有达到统计学意义。进一步的多变量logistic分析(表2)显示,脓毒症并发ARDS患者的院内死亡率与以下因素之间存在强相关性:年龄、呼吸频率、SAPS Ⅱ、Hb、BUN、Cre、钠、PT、APTT、SaO2、尿量、脑血管病、肝病、糖尿病、恶性肿瘤、血管活性药物的使用、RRT有显著相关性(P<0.05)。机器学习算法在大规模变量选择方面具有独特的优势,LASSO回归分析法被用于此目的,确定了脓毒症并发ARDS患者院内死亡率独立风险因素包括年龄、呼吸频率、MAP、SAPS II、CCI、Hb、HCT、BUN、钠、PT、APTT、SaO2、尿量、脑血管疾病、肝病、糖尿病、恶性肿瘤、血管活性药物的使用和RRT(图2A-B)。除了LASSO算法之外,我们还使用随机森林算法进行变量选择,获得了与之前获得的结果类似的结果。

表2脓毒症并发ARDS患者预测因素的多因素logistic回归分析
2.Logistic回归与LASSO相结合的特征选择

图2 A-B使用LASSO机器学习算法进一步筛选脓毒症并发ARDS风险因素。在log(lambda)= −4.398时,选择19个变量作为生存相关因素(年龄、呼吸频率、MAP、SAPS II、CCI、Hb、HCT、BUN、钠、PT、APTT、SaO 2、尿量、脑血管疾病、肝病、糖尿病、恶性肿瘤、血管活性药物的使用和RRT)
3.模型构建
基于使用逻辑回归和LASSO机器学习算法选择变量并考虑其临床意义,选择以下变量构建临床预测模型(CPM):年龄、MAP、Hb、pH、钠、SaO2、碳酸氢盐、PT、脑血管疾病、肝病、糖尿病和恶性肿瘤。构造的CPM由以下等式表示:CPM=0.025×年龄+0.343×MAP-0.0045×Hb+0.149×pH +0.424×钠-0.094×SaO2-0.043×Bicycline +0.018×PT+0.502×脑血管疾病+0.683×肝病+0.333×糖尿病+0.734×恶性肿瘤+7.113。此外,开发了使用列线图(图3)来可视化说明模型。

图3基于重复选择的风险因素构建的可视化列线图。纵轴代表所选的风险因素,横轴代表死亡风险;通过计算每个危险因素的相应评分获得总分,其进一步用于评估脓毒症相关急性呼吸窘迫综合征(ARDS)患者的住院死亡风险。
4.与SOFA和SAPS II的内部验证和比较
使用来自MIMIC IV数据库的内部验证数据集验证模型的预测性能。分别使用ROC曲线、校准图和决策曲线分析(DCA)评估该模型的临床鉴别力、校准和净效益。图4中呈现的结果显示出良好的临床区分,训练集的AUC为0.715(图4A-C),验证集的AUC为0.711(图4D-F)。预测的概率与理想线紧密对齐,表明良好的模型校准。此外,该模型表现出良好的临床适用性和净效益。SOFA和SAPS II评分长期以来一直是评估脓毒症严重程度的经典工具。我们将新开发的预测模型(AUC=0.715)与SOFA(AUC=0.577)和SAPS II(AUC=0.688)评分进行比较,以评估其性能和潜在应用。结果显示,新构建的模型表现出比其他两种方法显著更高的区分能力,如图5、表3和表4所示。

图4新开发的临床预测模型的性能评价A-C分别代表训练集的ROC分析、校准曲线分析和DCA。D-F分别代表内部验证集的ROC分析、校准曲线分析和DCA

图5将新开发的预测模型与SOFA和SAPS II的判别性能进行比较;新模型的AUC值为0.715,而SOFA的AUC值为0.577,SAPS II的AUC值为0.688。

表3 SOFA和SAPAS II模型性能比较

表4不同模型的Delong检验比较
5.模型的外部验证
除了使用MIMIC IV数据作为训练和内部验证集外,我们还收集了中国辽宁省三级医院脓毒症所致ARDS患者的数据用于外部验证新开发的预测模型,该数据集包括2016年1月至2022年9月期间符合入选和排除标准并提供完整信息的225例患者。在这些患者中,117例在住院期间死亡,108例存活。如图6所示,结果表明该模型显示出良好的临床区分,在外部验证集中AUC为0.771(图6A)。此外,该模型表现出良好的校准(图6 B)、临床适用性和净效益(图6C)。

图6 新开发的临床预测模型的外部验证;A-C分别代表外部验证集的ROC分析、校准曲线分析和DCA
讨论
脓毒症合并ARDS与高死亡率和显著发病率相关。因此,早期识别和适当的管理可以改善患者的预后。然而,对这一人群的预测模型目前仍是缺乏的。在本研究中,我们利用MIMIC IV数据库和来自中国辽宁省某三级医院的独立外部数据,开发并验证了一种新的临床预测模型。与现有的评估工具相比,我们的模型显示出了优越的鉴别能力,为识别高危患者和指导个性化治疗决策提供了一个潜在的策略。
机器学习算法在从大样本中选择变量方面具有独特的优势。除了传统的多变量逻辑回归外,我们还采用了LASSO机器学习算法来提高变量选择的准确性和可靠性。所选的变量,包括年龄、MAP、Hb、pH、钠、SaO2、碳酸氢盐、PT、脑血管疾病、肝病、糖尿病和恶性肿瘤,代表了一系列脓毒症和ARDS患者通常评估的患者特征、生理参数和临床状况。这强调了该模型的临床适用性,因为所使用的数据很容易获得。模型中的每个变量都提供了关于患者当前状况的独特信息,并在模型中协同相互作用。考虑每个变量,以及在多变量分析中对其他变量的调整,确保了我们的模型的准确性和临床相关性。此外,使用多个数据源进行内部和外部验证证明了我们的模型在不同人群中的可靠性和通用性。
年龄是该模型中的一个关键因素,许多研究已确定它是脓毒症合并ARDS患者预后的独立危险因素。高龄与器官储备减少和对感染的易感性增加有关。在老年患者中,即使是轻微的损伤也会导致免疫功能障碍,有可能加剧ARDS和多器官功能障碍综合征(MODS)的发展,导致临床结局恶化和死亡率增加。
MAP是心血管功能和血液灌注的关键指标,当其达到或超过65 mmHg的阈值时,与死亡率降低相关。
在脓毒性休克患者中,经常观察到Hb水平下降,这归因于抑制红细胞生成的全身炎症反应,以及溶血和出血。Hb水平降低的患者更容易发生组织缺氧,且其全身炎症反应往往比Hb水平正常的患者更严重。因此,Hb相关指标有待进一步研究。
PT是一个重要的独立危险因素,提示凝血功能受损,同时也影响预后。脓毒症诱导的补体激活可引起内皮损伤,导致炎症和微血栓通路的激活,导致弥散性血管内凝血。脓毒症相关凝血功能障碍(SAC)显著影响患者的预后,其中脓毒症和严重SAC患者的死亡率更高。
pH反映了代谢紊乱和患者对治疗的反应,它不仅是代谢失调的早期指标,而且还与患者的预后相关。
在我们的研究中,脑血管疾病、肝病、糖尿病、恶性肿瘤以及需要血管升压剂支持或RRT的患者的预后明显更差。据报道,脓毒症合并ARDS和具有基础疾病患者预后较差,死亡率较高。有三种或三种以上的基础疾病和高龄被确定为预后不良的独立危险因素。老年人和多种基础疾病的存在大大增加了脓毒症患者的死亡风险。
列线图是一种可视化的表现形式,它简化了复杂的回归方程,使临床预测模型的结果更易于解释。有助于临床医生对脓毒症患者的治疗和管理做出个性化决策,从而降低死亡风险。我们创建了一个列线图来可视化模型,每个变量都由一条线段表示,线段上标有相应的刻度,指示值的范围。每个因素对结果事件的贡献由线段的长度表示。最后一行表示通过将每个单独变量的得分相加获得的总分。根据总分计算脓毒症所致ARDS患者的院内死亡率预测概率。该可视化工具简洁实用,便于临床应用。模型中的每个变量都提供了关于患者当前状况的唯一信息,并在模型中协同工作。考虑每个变量,包括多变量分析中其他变量的调整,确保模型的准确性和临床相关性。此外,使用多个数据源进行内部和外部验证,证明了我们的模型在不同人群中的稳健性和通用性。
然而,我们承认使用我们的模型预测特定个体的住院死亡率存在一定的局限性。这些局限性主要包括来自不同国家或地区的患者之间的临床数据差异。虽然我们对不同单位的数据进行了标准化,但由于用于测试的试剂不同,测量值的变化是不可避免的。此外,外部验证数据集的样本量小于之前的MIMIC IV数据集,并且存在临床指标的匹配差异。此外,由于数据限制,未考虑可能影响患者结局的其他重要因素,如治疗策略、感染控制措施和其他护理干预措施。因此,我们的模型应被视为需要考虑这些因素的辅助工具,而不是唯一的决策工具。
结论
我们开发的临床预测模型提供了一个有价值的工具,以早期识别脓毒症所致ARDS患者的医院死亡率高风险。这可能有助于加强脓毒症的管理,特别是在并发ARDS的患者中,通过促进个性化治疗策略的实施和改善患者的预后。