目的:筛选早期宫颈癌保留生育功能治疗(FST)后复发影响因素并构建预测模型,为临床宫颈癌保育治疗的选择及术后监测提供依据。方法:回顾分析2007年4月至2023年1月就诊于山东大学齐鲁医院等4所医疗中心的210例早期宫颈癌患者的临床资料,包括人口统计学特征、生育史、手术史、临床症状及随访结局等。预处理后采用随机森林(RF)、支持向量机(SVM)、K近邻(KNN)、逻辑回归(LR)及森林之神(Boruta)等5种机器学习(ML)算法对21项影响因素进行变量筛选。采用15种ML算法构建预测模型,通过比较评估及外部验证确定最优预测模型。基于SHAP方法构建模型解释器。结果:基于过采样的重采样数据受试者工作特征曲线下面积(AUC)最大,5种ML方法筛选的5项交集变量为FIGO 2018分期、肿瘤直径、病理类型、HPV16与否及是否保留子宫动脉宫体支情况。训练集中,各模型的AUC均大于0.70,其中套索回归(LASSO)模型AUC最小为0.748(95%CI:0.723~0.773)。CATBoost模型的AUC为0.932(95%CI:0.905~0.959)。Delong检验显示其与LASSO模型相比,AUC差异有统计学意义(P<0.05)。CATBoost模型的准确度为0.808,灵敏度为0.733,特异度为0.884,最大有效阈值概率达到0.79,残差均方根值(RMSR)小于0.5。验证集中,CATBoost模型的AUC为0.896(95%CI:0.836~0.957),略低于AUC最大值的偏最小二乘判别分析模型(PLS_DA)的0.900(95%CI:0.840~0.960)。Bootstrap检验表明,CATBoost与自适应提升(AdaBoost.M1)及RF模型差异有统计学意义(P<0.05),其准确度(0.777)和F1分数(0.753)均高于其他12个模型。阴性预测值(NPV)为0.842,略低于PLS_DA,优于其他13个模型。临床净效益分析表明,CATBoost的最大净效益为0.495,其RMSR低于其残差上四分位数,与线性判别分析(LDA)、KNN及LASSO相似,表明其在外部验证集中预测早期宫颈癌患者接受FST后复发风险的稳定性更高。结论:基于多种ML筛选预测变量并开发了一项具备可解释性的预测模型,能够根据输入的临床资料对早期宫颈癌患者接受FST后复发风险进行个体化预测。