当前位置: 首页 > news >正文

GIST 复发风险预测升级!影像 + 病理 + 临床多模态模型来了,精准度再突破


https://pubmed.ncbi.nlm.nih.gov/39060449/

研究概述

本文发表于《NPJ Precis Oncol》2024年,由中国医科大学等机构团队开展,旨在构建并验证一个多模态预测模型,以更精准预测胃肠道间质瘤(GIST)患者的无复发生存期(RFS),辅助临床决策(如TKI辅助治疗的精准应用)。

研究背景

  • GIST是胃肠道最常见的间叶源性肿瘤,恶性潜能各异,现有基于改良NIH评分的风险评估存在高估或低估风险的问题。
  • 放射组学、深度学习(病理组学)技术可提取影像和病理图像中的精细特征,多模态整合有望提升预测准确性。

研究思路

经典的 4 步:多模态数据收集、数据标注与特征提取、模型构建、模型验证

多模态数据收集

  • 开发队列:254例(2019-2022年,中国医科大学第一医院),含术前CE-CT(218例)、术后H&E染色全切片图像(WSI,186例)及临床数据。
  • 外部验证队列:42例(2018-2022年,辽宁肿瘤医院),含完整放射组学、病理组学及临床数据。

数据标注与特征提取

该研究中,数据标注与特征提取是构建预测模型的核心基础,针对放射组学、病理组学和临床数据三类信息分别设计了系统流程,具体过程如下:

影像组学数据

目标:从术前增强CT(CE-CT)中提取与肿瘤预后相关的纹理、灰度分布等量化特征。

1. 数据标注(ROI标注)

  • 图像来源:64排CT扫描仪获取的门静脉期(PVP)图像(注射造影剂后65-80秒),层厚2_2_2mm。
  • 标注方法:由2名具有2年以上腹部影像经验的放射科医生,在3D Slicer软件(Ver. 5.1.0) 中手动勾勒肿瘤区域(ROI),标注过程采用“盲法”(不了解患者预后信息);标注结果由2名分别具有15年和10年经验的资深放射科医生验证并修正,确保准确性。

2. 特征提取

  • 工具:使用Python的PyRadiomics包(Ver. 3.1.0)

  • 提取过程:基于标注的ROI区域,标准化图像后,提取多维度特征,包括:

  • 基础特征:形状、大小(如肿瘤直径);

  • 纹理特征:灰度共生矩阵(GLCM)、灰度尺寸区域矩阵(GLSZM)、灰度游程矩阵(GLRLM)等(反映肿瘤内部灰度分布的异质性);

  • 小波特征:通过小波变换提取不同频率下的纹理特征(如LLH、HHH等小波系数对应的特征)。

  • 结果:共提取2266个特征

病理组学数据:从 H&E切片提取深度特征

1. 数据标注(组织类型标注)

  • 图像来源:术后肿瘤组织的H&E染色切片,数字化扫描为WSI。
  • 标注方法:由2名资深病理专家使用QuPath软件,对30张WSI进行部分标注,明确肿瘤、间质、黏膜、平滑肌、坏死等组织类型(标注精度需达到“合理但不完美”,平衡效率与准确性)。

2. 特征提取(基于深度学习)

  • 步骤1:训练组织分类器

  • 将标注后的WSI切成 224*224 像素的小 patches(非重叠,边缘非正方形的patch剔除);

  • 随机选取30万个patch(按7:3分为训练集和验证集),采用ResNet50深度学习模型(预训练于ImageNet数据集)进行训练,优化器为Adam,学习率0.0001,批量大小64,在NVIDIA GTX3090 GPU上训练30个epoch,同时通过随机旋转、翻转进行数据增强;

  • 结果:最佳模型在验证集上的组织分类准确率达0.96(主要擅长识别肿瘤和背景组织)。

  • 步骤2:提取WSI-level病理组学特征

  • 用训练好的分类器筛选出所有WSI中的肿瘤区域patch;

  • 从ResNet50的“全局平均池化层”提取特征向量(长度2048,每个维度代表一个微观纹理特征);

  • 计算同一WSI中所有肿瘤patch的特征均值,得到“全切片水平(WSI-level)”的病理组学特征。

临床数据:从病例信息到关键预后指标

目标:筛选与GIST复发相关的临床变量,作为模型的基础特征。

1. 数据收集

  • 收集30项临床指标,包括:

  • 患者基本信息(性别、年龄、BMI等);

  • 肿瘤特征(部位、大小、有丝分裂数、Ki67水平等);

  • 治疗信息(是否接受TKI辅助治疗、手术方式等);

  • 术前生化检查结果(如常规血液指标)。

2. 特征筛选

  • 通过LASSO-COX回归随机森林算法(10折交叉验证)初步筛选,再用逐步COX回归进一步优化,最终保留与RFS显著相关的特征(如肿瘤大小、有丝分裂数、Ki67水平等)。

模型构建

  1. 单模态模型
  • 影像组学模型:基于CE-CT提取2266个特征,经LASSO-COX、随机森林及逐步COX回归筛选出5个关键特征(如ZE、SAHGLE等),开发队列验证C指数0.82,外部验证p=0.06(未达显著)。

  • 病理组学模型:基于ResNet50提取WSI特征,聚类为2组,开发队列p<0.0001,外部验证p=0.095(接近显著)。

  • 临床模型:筛选出5个临床特征(如肿瘤大小、有丝分裂数、Ki67水平等),开发队列及外部验证均显著(p<0.0001、p=0.006)。

  1. 多模态模型
  • 融合放射组学、病理组学及临床特征,采用后期融合方法构建,外部验证平均C指数0.864,p=0.0088(显著),性能优于所有单模态模型。

多模态融合

分为早期融合和后期融合两种方法,作者选择了后期融合,因为结果更好

  • 早期融合(Early Fusion):直接合并原始特征
    原理:将三种模态的原始特征直接拼接成一个高维特征矩阵,再用这个矩阵训练融合模型。
    具体操作:
    放射组学特征(如筛选后的 5 个)、病理组学特征(如 21 个)、临床特征(如 5 个)直接组合,形成一个包含 31 个特征的矩阵;
    用这个矩阵通过多元 COX 回归构建模型。
    局限性:
    原始特征维度高(尤其放射组学初始特征达 2266 个),且不同模态特征的 “尺度” 差异大(如临床特征是数值变量,影像特征是纹理量化值),容易导致模型过拟合,尤其在多模态样本量较小(开发队列 163 例)时稳定性差。
  • 后期融合(Late Fusion):合并单模态的预测结果
    原理:先让每个单模态模型独立输出 “预测分数”(而非原始特征),再将这些分数作为新特征训练融合模型,相当于 “让模型学习如何加权单模态的预测结果”。
    具体操作:
    ① 分别计算三个单模态模型的预测分数:radscore(放射组学)、patscore(病理组学)、clinscore(临床);
    ② 将这三个分数作为输入特征,通过多元 COX 回归构建最终的多模态模型,本质是学习三个分数的 “最优权重”;
    ③ 最终模型的预测公式为:多模态预测分数 = 0.408×radscore - 16.306 + 0.714×patscore - 21.429 + 0.0085×clinscore - 2.069 (系数通过训练数据拟合得到,反映各模态对最终预测的贡献权重)。
http://www.sczhlp.com/news/6798/

相关文章:

  • 应聘记录
  • 2025 暑假集训 Day2
  • 2025 暑假集训 Day1
  • 关于在php和html混写
  • 列出文件下所有文件并生成带有下载链接的li标签 需要在ol标签内使用
  • 8月6日
  • Luogu P5062 [Ynoi Easy Round 2014] 在太阳西斜的这个世界里 题解
  • C++ String.format()的详细用法
  • manacher
  • $\text{Linux}$ 网络编程
  • 【JavaSE】BigDecimal是不可变对象(immutable)
  • zerotier进行内网穿透
  • etcd对boltdb的使用和改进
  • The Subway
  • 8月6日随笔
  • 微软藏得太深! 99%的人不知道的免费录制4K视频隐藏功能 超好用!
  • 《LabVIEW 2025 安装全流程图解:新手也能一次搞定!》
  • bsc 静态节点部署 - 若
  • arduino开发你好小智(2)外设led,温湿度传感器,舵机设备控制 - MKT
  • U++第三方库导入
  • Sentinel与OpenFeign整合
  • 2025“钉耙编程”中国大学生算法设计暑期联赛(6)
  • 【分享】目录名太长导致Vivado和Vitis编译失败
  • 零信任架构技术指南:腾讯iOA助力大规模企业安全转型
  • bsc basefee的影响参数 - 若
  • VS Code配置Go语言开发环境v2
  • HFSS许可优化管理
  • 洛谷题单指南-状态压缩动态规划-P2831 [NOIP 2016 提高组] 愤怒的小鸟
  • LDPC 原理以及译码原理(硬解和软解)
  • 3000 台 JuiceFS Windows 客户端性能评估