当前位置：首页 > news >正文

GIST 复发风险预测升级！影像 + 病理 + 临床多模态模型来了，精准度再突破

news 2025/10/1 9:39:48

https://pubmed.ncbi.nlm.nih.gov/39060449/

研究概述

本文发表于《NPJ Precis Oncol》2024年，由中国医科大学等机构团队开展，旨在构建并验证一个多模态预测模型，以更精准预测胃肠道间质瘤（GIST）患者的无复发生存期（RFS），辅助临床决策（如TKI辅助治疗的精准应用）。

研究背景

GIST是胃肠道最常见的间叶源性肿瘤，恶性潜能各异，现有基于改良NIH评分的风险评估存在高估或低估风险的问题。
放射组学、深度学习（病理组学）技术可提取影像和病理图像中的精细特征，多模态整合有望提升预测准确性。

研究思路

经典的 4 步：多模态数据收集、数据标注与特征提取、模型构建、模型验证

多模态数据收集

开发队列：254例（2019-2022年，中国医科大学第一医院），含术前CE-CT（218例）、术后H&E染色全切片图像（WSI，186例）及临床数据。
外部验证队列：42例（2018-2022年，辽宁肿瘤医院），含完整放射组学、病理组学及临床数据。

数据标注与特征提取

该研究中，数据标注与特征提取是构建预测模型的核心基础，针对放射组学、病理组学和临床数据三类信息分别设计了系统流程，具体过程如下：

影像组学数据

目标：从术前增强CT（CE-CT）中提取与肿瘤预后相关的纹理、灰度分布等量化特征。

1. 数据标注（ROI标注）

图像来源：64排CT扫描仪获取的门静脉期（PVP）图像（注射造影剂后65-80秒），层厚2_2_2mm。
标注方法：由2名具有2年以上腹部影像经验的放射科医生，在3D Slicer软件（Ver. 5.1.0） 中手动勾勒肿瘤区域（ROI），标注过程采用“盲法”（不了解患者预后信息）；标注结果由2名分别具有15年和10年经验的资深放射科医生验证并修正，确保准确性。

2. 特征提取

工具：使用Python的PyRadiomics包（Ver. 3.1.0）
提取过程：基于标注的ROI区域，标准化图像后，提取多维度特征，包括：
基础特征：形状、大小（如肿瘤直径）；
纹理特征：灰度共生矩阵（GLCM）、灰度尺寸区域矩阵（GLSZM）、灰度游程矩阵（GLRLM）等（反映肿瘤内部灰度分布的异质性）；
小波特征：通过小波变换提取不同频率下的纹理特征（如LLH、HHH等小波系数对应的特征）。
结果：共提取2266个特征

病理组学数据：从 H&E切片提取深度特征

1. 数据标注（组织类型标注）

图像来源：术后肿瘤组织的H&E染色切片，数字化扫描为WSI。
标注方法：由2名资深病理专家使用QuPath软件，对30张WSI进行部分标注，明确肿瘤、间质、黏膜、平滑肌、坏死等组织类型（标注精度需达到“合理但不完美”，平衡效率与准确性）。

2. 特征提取（基于深度学习）

步骤1：训练组织分类器
将标注后的WSI切成 224*224 像素的小 patches（非重叠，边缘非正方形的patch剔除）；
随机选取30万个patch（按7:3分为训练集和验证集），采用ResNet50深度学习模型（预训练于ImageNet数据集）进行训练，优化器为Adam，学习率0.0001，批量大小64，在NVIDIA GTX3090 GPU上训练30个epoch，同时通过随机旋转、翻转进行数据增强；
结果：最佳模型在验证集上的组织分类准确率达0.96（主要擅长识别肿瘤和背景组织）。
步骤2：提取WSI-level病理组学特征
用训练好的分类器筛选出所有WSI中的肿瘤区域patch；
从ResNet50的“全局平均池化层”提取特征向量（长度2048，每个维度代表一个微观纹理特征）；
计算同一WSI中所有肿瘤patch的特征均值，得到“全切片水平（WSI-level）”的病理组学特征。

临床数据：从病例信息到关键预后指标

目标：筛选与GIST复发相关的临床变量，作为模型的基础特征。

1. 数据收集

收集30项临床指标，包括：
患者基本信息（性别、年龄、BMI等）；
肿瘤特征（部位、大小、有丝分裂数、Ki67水平等）；
治疗信息（是否接受TKI辅助治疗、手术方式等）；
术前生化检查结果（如常规血液指标）。

2. 特征筛选

通过LASSO-COX回归、随机森林算法（10折交叉验证）初步筛选，再用逐步COX回归进一步优化，最终保留与RFS显著相关的特征（如肿瘤大小、有丝分裂数、Ki67水平等）。

模型构建

单模态模型

影像组学模型：基于CE-CT提取2266个特征，经LASSO-COX、随机森林及逐步COX回归筛选出5个关键特征（如ZE、SAHGLE等），开发队列验证C指数0.82，外部验证p=0.06（未达显著）。

病理组学模型：基于ResNet50提取WSI特征，聚类为2组，开发队列p<0.0001，外部验证p=0.095（接近显著）。
临床模型：筛选出5个临床特征（如肿瘤大小、有丝分裂数、Ki67水平等），开发队列及外部验证均显著（p<0.0001、p=0.006）。

多模态模型

融合放射组学、病理组学及临床特征，采用后期融合方法构建，外部验证平均C指数0.864，p=0.0088（显著），性能优于所有单模态模型。

多模态融合

分为早期融合和后期融合两种方法，作者选择了后期融合，因为结果更好

早期融合（Early Fusion）：直接合并原始特征
原理：将三种模态的原始特征直接拼接成一个高维特征矩阵，再用这个矩阵训练融合模型。
具体操作：
放射组学特征（如筛选后的 5 个）、病理组学特征（如 21 个）、临床特征（如 5 个）直接组合，形成一个包含 31 个特征的矩阵；
用这个矩阵通过多元 COX 回归构建模型。
局限性：
原始特征维度高（尤其放射组学初始特征达 2266 个），且不同模态特征的 “尺度” 差异大（如临床特征是数值变量，影像特征是纹理量化值），容易导致模型过拟合，尤其在多模态样本量较小（开发队列 163 例）时稳定性差。
后期融合（Late Fusion）：合并单模态的预测结果
原理：先让每个单模态模型独立输出 “预测分数”（而非原始特征），再将这些分数作为新特征训练融合模型，相当于 “让模型学习如何加权单模态的预测结果”。
具体操作：
① 分别计算三个单模态模型的预测分数：radscore（放射组学）、patscore（病理组学）、clinscore（临床）；
② 将这三个分数作为输入特征，通过多元 COX 回归构建最终的多模态模型，本质是学习三个分数的 “最优权重”；
③ 最终模型的预测公式为：多模态预测分数 = 0.408×radscore - 16.306 + 0.714×patscore - 21.429 + 0.0085×clinscore - 2.069 （系数通过训练数据拟合得到，反映各模态对最终预测的贡献权重）。