顶刊精析|2024-06-10
首先祝各位老师、师兄师姐、师弟师妹们端午节快乐!!小罗是社恐,所以就不一一发消息问候了,哈哈。
今天这篇推文是昨天下午写完的,想着时间有点晚了,所以就放到今天发了。
这篇文献想必很多研究的老师已经看到了,朋友圈也看到了这篇文献相关的推送,所以就借着这个机会详细地分析一下这篇文章。
交流群
欢迎大家来到【医学AI】交流群,本群设立的初衷是提供交流平台,方便大家后续课题合作。
这篇文章介绍了一种名为的新型数字病理基础模型,该模型利用美国大型医疗网络Providence的全切片(whole slides)上的13亿个病理图像瓦片进行预训练。
这些切片涵盖了超过患者的31种主要组织类型,用于癌症亚型和病理组学任务的评估。Prov-GigaPath利用了一种新颖的视觉变换器架构,该架构通过对千兆像素级别的病理切片进行预训练。GigaPath采用了新开发的方法来适应数字病理学,以处理包含数万个图像瓦片的切片级别的学习。
Prov-GigaPath在26项任务中的25项上实现了最先进的性能,与次优方法相比,在18项任务上有显著改进。此外,研究者还探索了Prov-GigaPath在病理学的方面的潜力,通过整合病理报告来优化预训练模型。Prov-GigaPath在多种数字病理学任务上展示了其性能,证明了大规模预训练和超大型上下文建模的重要性。
文章还讨论了Prov-GigaPath在临床诊断和决策支持中的潜在应用,以及GigaPath在更广泛的生物医学领域的应用前景。Prov-GigaPath完全开放权重,包括源代码和预训练模型权重,以加速数字病理学研究的进展。
研究者还提出了Prov-GigaPath在不同任务中性能的显著差异,以及未来可能的发展方向,包括研究病理基础模型的扩展规律、优化预训练过程以及将高级多模态学习框架整合到工作中。
计算病理学有望通过赋能多种临床应用来转变癌症诊断,包括2,9,10、1,11–13、14–17和18–23。
尽管现有计算方法的性能令人鼓舞,但这些方法通常是为特定应用开发的,并且需要大量标注数据用于监督学习。数据标注既昂贵又耗时,已经成为计算病理学的重要瓶颈。
最近,在利用未标注数据预训练基础模型方面取得了有希望的结果,这可以显著减少对任务特定标注的需求24–28。由于基础模型具有强大的泛化能力,因此它们已被开发用于生物医学领域,这些领域中的标注数据稀缺但未标注数据丰富,这种情况恰当地描述了计算病理学29–33。
阻碍病理基础模型开发和用于实际临床应用的主要挑战有三个。
首先,公开可用的病理数据相对稀缺且质量参差不齐,这限制了在这样数据上预训练的基础模型的性能。例如,现有的病理基础模型主要在The Cancer Genome Atlas (TCGA)的全切片图像(WSIs)上进行预训练,这是一个由专家策划的数据集,包含大约切片和图像瓦片。
尽管它们是一个巨大的资源,但TCGA数据可能不足以完全解决实际临床实践中数字病理学面临的挑战,例如异质性和噪声伪影34,这导致在使用基于TCGA的预测模型和生物标志物对分布外样本进行预测时性能大幅下降。
其次,设计一个能够有效捕捉单个瓦片中的局部模式以及整个切片中的全局模式的模型架构仍然是一个挑战35–39。现有模型通常将每个图像瓦片视为独立样本,并将切片级建模制定为多个实例学习4,40–43,从而限制了它们在吉像素级全切片中建模复杂全局模式的能力。一个值得注意的例外是Hierarchical Image Pyramid Transformer (HIPT),它在瓦片上探索分层自注意力35。
第三,在罕见情况下,尽管已经在大规模真实世界患者数据上进行了预训练,但生成的的基础模型通常不对公众开放,从而限制了它们在临床研究和应用中的广泛适用性。
Supplementary Table 1提供了几种病理图像基础模型的比较概览
以下是对表中信息的分析:
-
模型架构 (Model Architecture):
- HIPT模型使用了基于的Vision Transformer (ViT),专注于(4,096 × 4,096像素)的输入。
- CtransPath结合了和,使用SRCL作为自监督对比学习 (Self-Supervised Contrastive Learning) 方法。
- REMEDIS采用了 152 × 2架构,通过SimCLR进行自监督学习。
- Prov-GigaPath使用了作为瓦片级别编码器,作为切片级别编码器。
-
数据大小 (Data Size):
- HIPT使用了1.04亿个瓦片的数据量。
- CtransPath使用了1,500万个瓦片。
- REMEDIS使用了5,000万个瓦片。
- Prov-GigaPath使用了13亿个瓦片,是表中数据量最大的模型。
-
输入大小 (Input Size):
- 除了Prov-GigaPath可以处理高达70K × 70K像素的切片级别输入外,其他模型主要处理较小的区域或瓦片级别输入。
-
数据来源 (Data Source):
- 所有列出的模型,除了Prov-GigaPath,都是使用TCGA (The Cancer Genome Atlas) 数据集进行预训练的。
- Prov-GigaPath是唯一一个使用来自Providence健康网络的真实世界患者数据进行预训练的模型,这可能使它在泛化能力和实际应用方面具有优势。
-
开放性 (Open-Weight Model):
- Prov-GigaPath的另一个显著特点是它是一个开放权重模型,意味着它的预训练模型权重可以公开获取,这有助于研究社区进一步研究和开发。
总结来说,Prov-GigaPath在模型架构、数据规模和输入大小方面都与其他模型有所不同,特别是在它能够在整个切片级别上进行建模,并且在使用真实世界数据进行预训练以及开放模型权重方面具有独特性。这些特点使得Prov-GigaPath可能在实际应用中更加有效和适应性强。
Prov-GigaPath,一个开放的权重病理基础模型,用于解决上述提出的三个挑战。
首先,Prov-GigaPath在上进行预训练,是一个来自普罗维登斯健康网络的的大型数字病理学数据集,覆盖。
Prov-Path包含来自苏木精和伊红(H&E)染色和免疫组化病理切片的图像瓦片,这些切片源自患者的活检和切除手术,覆盖。
Prov-Path在图像瓦片数量上比TCGA大五倍以上,在患者数量上比TCGA大两倍以上。作者的预训练利用了所有13亿个图像瓦片,据作者所知,这是迄今为止最大的预训练工作。这些大型的、多样化的、真实世界的数据为预训练Prov-GigaPath提供了基础。Prov-Path还包含了一层有价值的信息,包括病理学发现、癌症分期、基因组突变谱,以及相关的病理报告。
其次,为了捕捉整个切片中的局部和全局模式,作者提出了GigaPath,这是一种新的视觉变换器,用于在吉像素级病理切片上预训练大型病理基础模型。关键思想是将图像瓦片嵌入为视觉标记,从而将切片转换为一个长序列的标记。
变换器44是一种强大的神经架构,用于通过在标记之间提炼任意复杂的模式来进行序列建模。然而,作者不能直接将传统的视觉变换器应用于数字病理学,因为一个病理切片可能包含数万个瓦片(在普罗维登斯数据中多达70,121个)并且随着序列长度的增加,自注意力计算呈二次方增长。
为了解决这个问题,作者通过采用其课题组最近开发的方法5来利用扩张自注意力。预训练首先使用DINOv2[24]和标准视觉变换器进行图像级自监督学习,然后使用LongNet进行全切片级自监督学习,采用掩蔽自编码器[45]。
最后,为了加速数字病理学的研究进展,作者将Prov-GigaPath完全开放权重,包括源代码和预训练的模型权重。
为了系统地研究Prov-GigaPath作为病理基础模型在实际场景中的有效性,作者建立了一个全面的数字病理学基准,涵盖了,如病理学和癌症亚型分类,使用来自普罗维登斯和TCGA的数据。
作者将Prov-GigaPath与公开可用的最新病理基础模型进行比较,包括HIPT[35]、CtransPath[41]和REMEDIS[42]。
通过大规模预训练和超大规模上下文建模,Prov-GigaPath在26个任务中的25个上取得了最新的性能,其中在18个任务中比次优方法有显著改进(补充表2)。
例如,在TCGA数据集上对EGFR突变预测,Prov-GigaPath相较于次优模型REMEDIS,在AUROC上提高了23.5%,在AUPRC上提高了66.4%。这一点尤其引人注目,因为REMEDIS是在TCGA数据上预训练的,而Prov-GigaPath则没有。
在癌症亚型分类方面,Prov-GigaPath在所有九种癌症类型上均优于其他模型,其中在六种癌症类型上比次优方法有显著改进。这为其在癌症类型中的广泛应用奠定了良好的基础。
最后,作者通过利用每个切片的相关进行视觉-语言预训练,继续对Prov-GigaPath进行预训练,采用。作者展示了由此产生的Prov-GigaPath在标准视觉-语言建模任务(如零样本亚型和突变预测)中具有最先进的性能,揭示了其在多模态综合数据分析中的潜力。
总的来说,Prov-GigaPath展示了使用大规模机器学习模型协助临床诊断和决策支持的可能性。
该模型是一个用于数字病理学的全切片基础模型,以下是对模型架构的分析:
-
模型输入和序列化 (Input Serialization):
- Prov-GigaPath的输入是全切片图像(Whole Slide Image, WSI)。
- 每个WSI被序列化为按行主序排列的256×256像素图像瓦片序列。
-
图像瓦片级编码 (Image Tile-Level Encoding):
- 使用图像瓦片级编码器将每个图像瓦片转换为视觉嵌入(visual embedding)。
- 这些嵌入是图像瓦片的特征表示,用于捕捉局部的病理结构。
-
切片级编码 (Slide-Level Encoding):
- Prov-GigaPath应用基于LongNet架构的切片级编码器来处理这些瓦片嵌入。
- LongNet编码器生成上下文化的嵌入(contextualized embeddings),这些嵌入考虑了整个切片的全局信息。
-
LongNet架构 (LongNet Architecture):
- LongNet是一个视觉变换器(vision transformer),专门设计用于处理大型序列,适用于千兆像素级别的图像。
- 它使用扩张注意力机制(dilated attention)来有效处理长序列,减少内存消耗。
-
自监督预训练 (Self-Supervised Pretraining):
- Fig. 1b展示了使用DINOv2进行图像瓦片级预训练的过程,DINOv2是一个自监督学习框架,用于学习图像的鲁棒特征表示。
- Fig. 1c展示了使用带遮蔽自编码器(masked autoencoder)的LongNet进行切片级预训练的过程,这种方法通过重建被遮蔽的瓦片来学习上下文信息。
-
[CLS] 分类标记 (Classification Token):
- [CLS]是一个特殊的标记,通常用于分类任务,它可能被用作聚合整个序列信息的表示,以进行最终的分类或其他下游任务。
-
下游应用 (Downstream Applications):
- Prov-GigaPath生成的上下文化嵌入可以作为多种下游应用的基础,如癌症亚型分类、基因突变预测等。
总结来说,Prov-GigaPath模型通过两阶段的自监督预训练,首先学习图像瓦片的局部特征,然后通过LongNet架构的切片级编码器捕捉整个切片的全局上下文信息,最终生成可以用于多种病理学任务的上下文化嵌入。这种设计使得Prov-GigaPath能够处理大规模的病理图像数据,并为临床诊断和研究提供有力的支持。
Prov-GigaPath将病理切片中的图像瓦片作为输入,并输出可以作为多种临床应用特征的切片级嵌入(图1a)。
Prov-GigaPath在吉像素病理切片的长上下文建模方面表现出色,通过提炼多样的局部病理结构和整合整个切片的全局特征。
Prov-GigaPath由一个(用于捕捉局部特征)和一个(用于捕捉全局特征)组成。将所有瓦片单独投影到紧凑的嵌入中。然后,输入瓦片嵌入的序列,并使用变换器生成考虑整个序列的上下文化嵌入。
使用DINOv2进行预训练,DINOv2是最先进的图像自监督学习框架24。结合了掩蔽自编码器预训练和LongNet[5],这是作者最近开发的用于超长序列建模的方法。
在中,使用简单的softmax注意力层对切片编码器的输出进行聚合。Prov-GigaPath是一种适用于高分辨率成像数据的一般预训练方法,可能扩展到其他生物医学问题,包括分析大型的2D和3D图像及视频。
作者在Prov-Path的大规模和多样化的真实世界数据上预训练了Prov-GigaPath。对于给定的下游任务,使用特定于任务的训练数据对预训练的Prov-GigaPath进行微调,这是基础模型的常规使用。
然后,可以在给定任务的测试数据上评估得到的任务特定模型。Prov-GigaPath在17个病理学生物标志物任务和9个亚型分类任务上相较于先前最先进公开的病理基础模型取得了显著改进。
以下是对这一补充图的分析:
-
器官类型的表示:
- 条形图展示了人体器官类型的切片和患者所占的百分比。
- 这些器官类型是根据患者数量最多的进行排序的。
-
切片百分比 (Percentage of Slides):
- 每个器官类型的条形图被分为两个部分,分别代表切片和患者的百分比。
- 切片的百分比反映了该器官类型的切片在整个Prov-Path数据集中所占的比例。
-
患者百分比 (Percentage of Patients):
- 与切片的百分比并列,患者百分比表示因该器官类型的疾病而参与研究的患者占总患者数的比例。
-
数据集的多样性:
- 通过展示多个器官类型的数据,这个图表说明了Prov-Path数据集的多样性和广泛性,这对于训练和评估病理学模型是非常重要的。
-
研究的重点区域:
- 由于只展示了患者数量最多的15个器官,这个图表可能揭示了研究的重点区域或病理学中常见的疾病类型。
-
数据集的不平衡问题:
- 如果某些器官类型的切片或患者百分比远高于其他器官,这可能表明数据集中存在不平衡问题,这可能需要在模型训练和评估时进行特别考虑。
-
研究应用:
- 这些统计信息对于理解数据集的组成和在不同器官上应用Prov-GigaPath模型的潜在影响至关重要。
总的来说,Supplementary Figure 1为研究者提供了一个关于Prov-Path数据集构成的直观视图,帮助他们了解不同器官类型的代表性,并可能指导他们决定模型训练和验证的策略。
以下是对这个图表的分析:
-
器官排序:
- 图表根据患者数量降序排列了15个器官类型。
-
瓦片数量:
- 每个器官类型的瓦片数量通过条形图的长度来表示,提供了每个器官在数据集中的瓦片总数的视觉比较。
-
数据集覆盖度:
- 瓦片数量可以反映数据集在不同器官类型上的覆盖度。瓦片数量多的器官可能在数据集中占据较大比例。
-
器官间的比较:
- 通过比较不同器官类型的瓦片数量,可以观察到哪些器官在Prov-Path数据集中有更多的样本,哪些较少。
-
数据集多样性:
- 瓦片数量的分布可以揭示数据集的多样性。如果某些器官类型的瓦片数量远高于其他器官,可能表明数据集在这些器官上具有更丰富的信息。
-
模型训练的考量:
- 瓦片数量的统计信息对于模型训练和验证很重要。研究者可能需要考虑数据集中的这种分布,以避免训练偏差或过拟合。
-
临床相关性:
- 瓦片数量也可能与特定器官类型的临床相关性有关。例如,如果某个器官类型的癌症更常见或更具挑战性,那么在数据集中可能有更多的瓦片来反映这一点。
-
数据集的代表性:
- 这个图表可以帮助评估Prov-Path数据集是否在不同器官类型上具有代表性,这对于确保模型泛化能力至关重要。
总结来说,Supplementary Figure 2提供了对Prov-Path数据集中不同器官类型瓦片数量的直观理解,这对于评估数据集的平衡性、多样性和代表性非常重要,并且对于设计和评估病理学模型的训练策略具有指导意义。
多种功能改变的是癌症进展和发展的基础,因此在癌症诊断和预后中具有实用价值。
尽管测序成本已大幅下降,但全球范围内对肿瘤测序的获取仍存在关键的医疗保健差距。因此,从病理图像中预测肿瘤突变可能有助于指导治疗选择并增加个性化医学的应用17。
以下是对图表的分析:
-
性能指标:
- 使用了两种主要的性能指标:区域下接收者操作特征曲线(AUROC)和区域下精确率-召回率曲线(AUPRC)来评估预测模型的性能。
-
预测任务分类:
- a, f: 全癌症类型18个生物标记物的预测
- 首先,作者检查了在泛癌症设置中最频繁突变的18个生物标志物的预测。
- 与最佳竞争方法相比,Prov-GigaPath在这18个生物标志物上实现了3.3%的宏观接收者操作特征(AUROC)改善和8.9%的宏观精确召回曲线(AUPRC)改善。
- 鉴于特定肿瘤突变与总体肿瘤组成和形态的已知关联,作者将这种改善归因于LongNet有效捕捉全局图像模式的能力。
- b, g: 肺腺癌(LUAD)特定5个基因突变的预测
- 作者关注了与LUAD诊断和治疗密切相关的五个基因(EGFR、FAT1、KRAS、TP53和LRP1B)46–48。Prov-GigaPath通过实现平均宏观AUROC 0.626,超过了所有竞争方法(P值<0.01),展示了最佳性能。
- c, h: 全癌症类型5个基因突变的预测
- 在泛癌症分析中,Prov-GigaPath也在这5个基因上超过了最佳竞争方法,实现了6.5%的宏观AUROC改善和18.7%的AUPRC改善。
- d, i: 在TCGA数据集上LUAD特定5个基因突变的预测
- 作者观察到Prov-GigaPath在LUAD特异性的五个基因突变预测中,与TCGA数据上预训练的竞争方法相比,具有相似的优势。这一点尤其引人注目,因为竞争方法35,41,42都是在TCGA上预训练的。
- e, j: 全癌症类型肿瘤突变负担(TMB)的预测
- 最后,作者检查了总体肿瘤突变负担(TMB)的预测,这是一个对实体肿瘤中免疫治疗特别相关的预测生物标志物。
- Prov-GigaPath以平均AUROC 0.708取得了最佳性能,显著优于次优方法
- a, f: 全癌症类型18个生物标记物的预测
-
独立实验:
- 数据表示为均值±标准误差(s.e.m.),基于10次独立的实验,这有助于评估模型性能的一致性和可重复性。
-
统计显著性:
- 列出的P值表示Prov-GigaPath与最佳比较方法之间的性能差异的统计显著性。使用单侧Wilcoxon检验来确定Prov-GigaPath是否在性能上显著优于其他方法。
-
Prov-GigaPath的优势:
- 如果P值小于常用的显著性水平(例如0.05),则表明Prov-GigaPath在相应的预测任务上性能显著优于竞争方法。
-
基因特异性分析:
- k: 子图k专门展示了在TCGA数据集上LUAD特定5个基因突变预测的每个基因的AUROC分数,这有助于进一步分析每个基因的预测性能。
-
生物标记物的比较:
- l: 子图l比较了全癌症类型18个生物标记物预测中每个生物标记物的AUROC分数,这有助于识别哪些生物标记物的预测模型表现更好。
-
模型泛化能力:
- 在TCGA数据集上的预测性能特别重要,因为它测试了模型在独立数据集上的泛化能力。
-
模型解释性:
- 通过分析特定基因或生物标记物的性能,可以提供对模型预测能力的更深入理解,并可能指导临床决策。
总结来说,Fig. 2提供了一个全面的视图来评估Prov-GigaPath在不同类型的基因突变预测任务中的性能,并通过统计测试来证明其相对于其他方法的优势。这些结果对于展示Prov-GigaPath作为一个强大的数字病理学工具具有重要意义。
以下是对这个图表的分析:
-
零样本学习环境:
- 零样本学习是指模型在没有直接训练数据的情况下进行分类任务。在这种情况下,模型依赖于预训练期间获得的知识来识别和分类未见过的类别。
-
癌症亚型分类任务:
- 图表中的条形图展示了非小细胞肺癌(NSCLC)和结直肠癌(COADREAD)的癌症亚型分类性能。
-
性能度量:
- 使用了区域下接收者操作特征曲线(AUROC)作为性能度量,这是评估分类模型在二分类问题上性能的常用指标,特别是在正负样本不平衡的情况下。
-
实验重复性:
- 错误线(error bars)表示50次独立实验的标准误差,显示了实验结果的一致性和可靠性。
-
平均性能:
- 条形图中的条块中心表示50次实验的平均值,提供了模型性能的中心趋势。
-
统计显著性:
- 列出的P值表示Prov-GigaPath与其他比较方法之间的性能差异的统计显著性。使用单侧Wilcoxon检验来确定Prov-GigaPath是否显著优于最佳比较方法。
-
模型比较:
- 如果P值小于显著性水平(例如0.05),则表明Prov-GigaPath在零样本癌症亚型分类任务上的性能显著优于其他方法。
-
预训练的影响:
- 该图表强调了使用图像-报告对进行视觉-语言预训练对提高零样本学习能力的重要性。
-
模型泛化能力:
- 零样本学习设置测试了模型在未见过的类别上的泛化能力,这对于实际应用中模型面对新情况的能力至关重要。
-
临床应用潜力:
- 这些结果表明,Prov-GigaPath可能具有在没有大量标记数据的情况下对癌症亚型进行分类的潜力,这对于临床应用中快速适应新情况或罕见癌症类型尤其有价值。
总结来说,Supplementary Figure 6提供了对Prov-GigaPath在零样本癌症亚型分类任务中性能的深入理解,突出了其在视觉-语言预训练和零样本学习设置下的优势。
以下是对这个图表的分析:
-
比较目的:
- 图表旨在评估LongNet架构与普通注意力机制结合FlashAttention在处理速度和性能上的差异。
-
使用的技术:
- 两种方法都使用了FlashAttention,这是一种旨在提高注意力机制计算效率的技术。
-
性能评估:
- 性能是通过在Providence数据集上进行(LUAD)5个基因突变预测的任务来评估的。
-
速度比较:
- 条形图显示了两种方法处理每个切片(slide)所需的平均时间。时间越短,表示计算速度越快。
-
性能比较:
- 除了速度,条形图还展示了两种方法在AUROC(Area Under the Receiver Operating Characteristic curve)和AUPRC(Area Under the Precision-Recall Curve)上的性能。
-
效率与效果的平衡:
- LongNet在保持与Vanilla Attention结合FlashAttention相当的性能的同时,实现了更快的计算速度。
-
实验重复性:
- 错误线表示10次独立实验的标准误差,显示了结果的一致性和可靠性。
-
平均性能:
- 条形图中的条块中心表示10次实验的平均值,提供了两种方法性能和速度的平均趋势。
-
统计显著性:
- 虽然图表中没有直接列出P值,但条形图的视觉比较可以提供两种方法在统计上是否存在显著差异的直观感受。
-
技术优势:
- 如果LongNet在速度上显著优于Vanilla Attention,并且性能相当,这表明LongNet是一个更有效的架构,尤其是在处理大规模数据集时。
总结来说,Supplementary Figure 7强调了LongNet在处理速度上的优势,同时保持了与普通注意力机制结合FlashAttention相当的性能。这对于需要处理大量图像数据的数字病理学应用来说是一个重要的考虑因素。
扩张注意力(dilated attention)机制是LongNet模型的一个关键特性,用于有效处理大型序列,如整个切片图像。
以下是对这个图表的分析:
-
扩张注意力概念:
- 扩张注意力是一种处理长序列数据的技术,通过将注意力机制分散开来,减少计算量和内存需求。
-
输入序列分段:
- 输入的瓦片序列首先被分割成多个长度为w的段。
-
段内稀疏化:
- 在每个段内,使用间隔r来稀疏化注意力计算,这意味着不是所有瓦片对都会相互计算注意力。
-
(w, r) 对的设置:
- 文本提到使用了三组(w, r)对:(512, 1),(1024, 2),和(2048, 4)。这些设置决定了段的长度和段内计算注意力的稀疏度。
- 当w较小且r为1时,可以更精确地捕捉局部模式。
- 当w较大且r较大时,模型可以近似整个切片图像中远距离区域之间的交互,同时保持可管理的内存成本。
-
局部与全局交互:
- 不同的(w, r)对有助于同时提取局部和全局特征,这对于理解整个切片图像的上下文至关重要。
-
加权平均输出:
- LongNet模型使用不同(w, r)对的注意力输出的加权平均值作为最终输出。
- 权重是每个(w, r)对的softmax操作的分母,这有助于平衡不同注意力模式的贡献。
-
注意力Softmax的分母:
- 权重的选择基于每个(w, r)对的softmax操作的分母,这反映了不同(w, r)对的重要性。
-
模型架构的优势:
- 这种设计允许LongNet在处理大型图像时保持高效的计算和内存使用,同时捕获重要的局部和全局特征。
-
自适应性:
- 通过调整(w, r)对,模型可以适应不同的图像大小和复杂性,提供灵活性。
-
对下游任务的影响:
- 扩张注意力机制能够为下游任务(如突变预测、癌症亚型分类等)提供丰富的特征表示。
总结来说,Supplementary Figure 8展示了LongNet模型如何通过扩张注意力机制有效地处理大型切片图像,通过不同(w, r)对的组合来平衡局部和全局特征的捕捉,并通过加权平均的方式整合这些特征,以支持各种复杂的数字病理学任务。
鉴于病理图像在分配肿瘤亚型中的整体效用2,9,10,49,作者接下来检查了Prov-GigaPath是否能够从图像准确预测癌症亚型。
作者在Prov-Path中对主要癌症类型的亚型分类进行了评估(图3)。
以下是对这个图表的分析:
-
癌症亚型分类任务:
- 图表比较了9种不同癌症类型的亚型分类性能。
-
性能指标:
- 使用了AUROC(a, c, e)和平衡准确率(BACC,b, d, f)作为性能评估指标。AUROC衡量模型在区分不同类别上的能力,而BACC是考虑到类别不平衡情况下的准确率指标。
-
独立实验:
- 数据表示为均值±标准误差(s.e.m.),基于10次独立的实验,这有助于评估模型性能的一致性和可靠性。
-
统计显著性:
- 列出的P值表示Prov-GigaPath与最佳比较方法之间的性能差异的统计显著性。使用单侧Wilcoxon检验来确定Prov-GigaPath是否显著优于其他方法。
-
癌症类型的缩写:
- 每种癌症类型使用缩写表示,例如BRCA代表乳腺癌,CNS代表中枢神经系统癌症,等等。
-
模型性能比较:
- 条形图显示了Prov-GigaPath与其他方法在每种癌症亚型分类任务上的性能对比。
-
性能优势:
- 如果Prov-GigaPath的条形高于其他方法,并且P值显示统计显著性,这表明Prov-GigaPath在该癌症亚型分类任务上具有性能优势。
-
泛化能力:
- 在多种癌症类型上的性能比较有助于评估Prov-GigaPath的泛化能力。
-
临床相关性:
- 癌症亚型分类对于临床治疗决策至关重要,因此这些结果可能对实际应用具有指导意义。
-
模型优化方向:
- 如果某些癌症类型上的分类性能不佳,可能需要进一步优化模型或收集更多的数据。
总结来说,Fig. 3提供了对Prov-GigaPath在多种癌症亚型分类任务中性能的全面评估,通过与现有方法的比较,展示了其潜在的临床应用价值和需要进一步研究的领域。
Prov-GigaPath在所有九种癌症类型上均超过了所有竞争方法,并在六种癌症类型上与次优方法相比取得了显著改进,这表明作者的瓦片编码器和切片编码器协同工作,有效提取了区分微小病理模式的特征。
HIPT和Prov-GigaPath之间的一个关键区别在于图像瓦片嵌入的聚合层。Prov-GigaPath在聚合整张切片中的超大量图像瓦片方面明显优于HIPT,这证明了使用LongNet进行高效且有效的聚合的潜力。
这种研究通过移除或替换模型的某些部分来理解每个部分对整体性能的贡献。
以下是对这个图表的分析:
-
消融研究目的:
- 消融研究用于评估Prov-GigaPath模型中不同组件的重要性。
-
模型变体比较:
- 比较了四种Prov-GigaPath模型的变体:
- 原始模型(Prov-GigaPath)
- 冻结LongNet层的模型(Prov-GigaPath fz)
- 没有进行切片级别预训练的模型(Prov-GigaPath w/o pt)
- 用ABMIL(Attention-based Multiple Instance Learning)替换LongNet的模型(Prov-GigaPath w. ABMIL)
- 比较了四种Prov-GigaPath模型的变体:
-
性能指标:
- 使用了AUROC(a)、AUPRC(b)、平衡准确率(BACC,c)和F1分数(d)作为性能评估指标。
-
独立实验:
- 每个变体的性能是通过10次独立实验得出的均值±标准误差(s.e.m.),这有助于评估性能的稳定性和可靠性。
-
统计显著性测试:
- 对原始Prov-GigaPath和使用ABMIL替换LongNet的变体(Prov-GigaPath w. ABMIL)进行了显著性测试,使用单侧Wilcoxon检验来确定两者之间的性能差异是否具有统计学意义。
-
性能差异:
- 如果Prov-GigaPath的P值小于显著性水平(例如0.05),则表明它在性能上显著优于Prov-GigaPath w. ABMIL。
-
组件重要性:
- 通过比较不同变体的性能,可以推断出哪些组件对模型的整体性能贡献最大。
-
模型优化:
- 消融研究的结果可以帮助研究者了解在模型设计中哪些部分是必不可少的,哪些部分可能需要进一步优化或替换。
-
模型泛化能力:
- 通过在癌症亚型分类任务上的测试,消融研究提供了模型泛化能力的视觉表示。
-
临床应用潜力:
- 了解模型的哪些部分对性能至关重要,可以帮助优化模型以满足临床应用的需求。
总结来说,Supplementary Figure 5通过消融研究提供了对Prov-GigaPath模型组件重要性的深入理解,这对于进一步改进模型和推动其在临床环境中的应用具有重要意义。
为了检查LongNet预训练的重要性,作者用随机初始化的模型替换了在Prov-Path上预训练的LongNet编码器。作者观察到平均AUROC从0.903显著下降到0.886(P值<2.0×10^-3),这表明LongNet编码器可以更好地捕捉切片级别的癌症异质性。
作者观察到,冻结和解冻LongNet编码器在癌症亚型分类任务上实现了相似的性能。这表明作者的预训练方法可以有效学习高质量的表示,减少了对LongNet额外微调的需求。为了验证使用LongNet编码器在整张切片中聚合图像模式的优越性,作者随后测试了一个替代方案,即移除LongNet,只通过基于注意力的(ABMIL)层进行聚合。平均而言,ABMIL层无法达到与LongNet相当的性能(P值<0.012),这证实了在病理切片中建模长距离依赖性的必要性。
Prov-GigaPath在病理图像上的有希望的结果进一步激励作者探索其在中的应用。
以往在病理视觉-语言建模方面的研究倾向于关注病理图像和文本之间的瓦片级对齐,因为它们的图像-文本对来源有限(教科书示例7或Twitter数据8)。
Fig. 4展示了Prov-GigaPath在图像-报告对齐方面的性能比较,特别是在经过病理报告微调后在零样本学习设置下进行癌症亚型分类和突变预测的能力。
以下是对这个图表的分析:
-
微调流程:
- a部分的流程图展示了如何使用病理报告对Prov-GigaPath进行微调。这包括使用OpenAI的GPT-3.5处理真实世界的病理报告,以去除与癌症诊断无关的信息,然后通过基于CLIP的对比学习来对齐Prov-GigaPath和PubMedBERT。
-
零样本学习性能:
- b部分说明了微调后的Prov-GigaPath如何用于执行零样本癌症亚型分类和突变预测。
- Prov-GigaPath的输入是从一个WSI分割出来的瓦片序列,而PubMedBERT的输入是手动设计的代表癌症类型和突变的提示。
-
性能度量:
- c和d部分的条形图比较了在NSCLC和COADREAD上的零样本亚型分类性能(c),以及使用微调模型对六个基因进行突变预测的性能(d)。
- 性能度量包括平衡准确率(BACC)、精确度、f1分数以及AUROC。
-
独立实验:
- 数据表示为50次独立实验的均值±标准误差(s.e.m.),这有助于评估模型性能的一致性和可靠性。
-
统计显著性:
- 列出的P值表示Prov-GigaPath与最佳比较方法之间的性能差异的统计显著性,使用单侧Wilcoxon检验。
-
性能比较:
- 如果Prov-GigaPath的P值显著,这表明它在相应的任务上性能优于其他方法。
-
模型泛化能力:
- 零样本学习设置测试了模型在未见过的类别上的泛化能力,这对于实际应用中模型面对新情况的能力至关重要。
-
图像-文本对齐:
- e部分的散点图比较了Prov-GigaPath和MI-Zero在零样本癌症亚型分类的BACC方面的性能。
- 每个点表示使用特定文本查询公式的一次试验。
-
临床应用潜力:
- 这些结果表明,经过病理报告微调的Prov-GigaPath可能具有在没有大量标记数据的情况下对癌症亚型进行分类和预测突变的潜力,这对于临床应用中快速适应新情况或罕见癌症类型尤其有价值。
总结来说,Fig. 4提供了对Prov-GigaPath在经过病理报告微调后的图像-文本对齐能力的综合评估,突出了其在零样本学习设置下在癌症亚型分类和突变预测方面的性能优势。
在零样本设置中,没有为任何目标癌症亚型提供训练图像。从Prov-Path收集了切片和相应的癌症亚型。与三种最先进的病理视觉-语言模型相比,Prov-GigaPath在两种癌症类型上的所有三个指标上都取得了最佳的零样本分类结果,这表明LongNet启用的切片级对齐确实具有优势。
Prov-GigaPath在NSCLC上的改进大于COADREAD,这可以归因于Prov-Path中肺组织更普遍的存在。Prov-GigaPath在预测基因突变方面显著优于最先进的病理视觉-语言模型(图4d,e),这可能反映了真实世界临床数据相比Twitter数据和科学论文50中的文本评论的优越性。
Prov-GigaPath在一个大型真实世界数据集Prov-Path上进行了预训练,该数据集来自普罗维登斯健康系统,包含多种类型和质量的病理图像。Prov-Path比TCGA大得多,包含了来自大约30,000名患者的171,189张病理切片中的1,384,860,229个图像瓦片。
作者提出了GigaPath进行预训练,该方法采用了最新的LongNet【5】作为视觉变换器,以促进吉像素WSIs的超大规模上下文建模。在对Providence和TCGA数据集的全面评估中,作者证明了Prov-GigaPath在各种病理学生物标志物和癌症亚型分类任务,以及视觉-语言处理方面的最先进性能。
Prov-GigaPath有可能协助临床诊断和决策支持,GigaPath有可能应用于更广泛的生物医学领域,用于从高分辨率图像中高效地进行自监督学习。
首先,亚型分类的性能明显优于突变预测的性能。尽管不同任务之间无法直接比较,但作者的观察表明,基于图像的突变预测更具挑战性。一个特别的原因可能是病理图像信息不足以预测某些突变。因此,作者计划在未来利用其他模态和特征来增强预测。
然而,作者的方法在突变预测任务上优于现有方法,为改善诊断和预后提供了机会。此外,作者发现基础模型,包括作者的方法和竞争方法,在任务特定模型(例如,在补充图4中的SL-ImageNet)方面要有效得多,这需要这些基础模型中的自监督学习框架。
更大的放大倍数将使处理时间增加四倍,但也会揭示更多图像的细节。因此,作者感兴趣的是在将来探索其他放大倍数。
在大语言模型中,当建模文本数据时,已经观察到了缩放定律。作者观察到,在更大的Prov-Path数据上预训练的GigaPath优于在较小的TCGA数据上预训练的GigaPath(扩展数据图6)。尽管模型架构不同,作者发现拥有更多参数的GigaPath在Prov-Path上预训练时也优于HIPT。
这两个结果表明了更大预训练数据和更大模型的有效性,这部分表明模型性能可能会随着更多的预训练令牌而进一步改善。作者感兴趣的是,通过比较不同大小的视觉变换器和不同大小的预训练数据,在病理学基础模型背景下进一步验证缩放定律。
首先,通过比较使用不同大小的视觉变换器的性能,研究病理学基础模型上的缩放定律[51]将很有趣。特别是,作者发现一个较小版本的Prov-GigaPath(拥有2300万参数)也取得了优于现有方法的性能,这表明了两种模型在实际临床中的应用:
- 一个用于快速推理和微调的小模型;
- 一个用于更准确推理的大模型(Prov-GigaPath)。
其次,预训练过程可以进一步优化。在切片级自监督学习中,作者冻结了瓦片级编码器以减少内存成本,这可能不是最优的。
作者计划探索使用更大的图形处理单元(GPU)集群进行端到端预训练,在上面作者可以实时计算图像编码并进行全部微调。
第三,作者对视觉-语言预训练进行了初步探索,并在零样本亚型分类和突变预测中展示了有希望的结果,但这与作为临床医生的对话助手相去甚远。在将来,作者计划将先进的跨模态学习框架,如LLaVA-Med52,纳入作者的工作。
作者首先建立了张H&E染色53和免疫组化54病理切片的预处理管道。
首先,作者进行了组织分割,以过滤背景区域。遵循HIPT,作者在降采样分辨率(例如,1,024像素)上运行Otsu55图像阈值处理,以提高计算效率和有效区分组织与背景。
其次,作者将WSIs调整到标准的分辨率,即每像素0.5微米(MPP)——即使用pyvips库的20×放大倍率。这一步是必要的,因为一些切片取决于扫描仪设置具有更高的分辨率。
最后,将图像裁剪成256×256像素的瓦片图像。
根据Otsu算法确定的占有率值小于0.1的瓦片被丢弃,以聚焦于组织覆盖的区域。作者在一个最多200个节点的集群上执行这些操作,每个节点配备32个CPU核心和256GB RAM,大约耗时157小时完成预处理。
最后,作者总共收集了1,384,860,229个瓦片,每个WSI的瓦片数量在补充图3中显示。
Prov-GigaPath瓦片编码器使用了ViT模型架构,并采用了标准的DINOv2设置【24】。
作者在1,384,860,229个分割的瓦片上对模型进行了预训练,将每个瓦片视为一个数据实例。
DINOv2预训练中的基础学习率设置为。作者在每个GPU设备上设置的批量大小为12,总有效批量大小为384。Prov-GigaPath切片编码器使用了LongNet模型架构和标准设置【5】。
为了离散化瓦片坐标,作者设置了网格大小dgrid为256,行数和列数ngrid分别为1,000。对于输入序列的增强,作者将裁剪比例设置为0.875。移动距离是随机生成的,使用均匀分布,以确保所有瓦片都在创建的网格覆盖内。作者对每张切片的瓦片坐标进行水平翻转,概率为0.5。
为了使用掩蔽自编码器预训练作者的Prov-GigaPath切片编码器,作者将学习率设置为,并在每个GPU设备上设置批量大小为4。
作者还设置了训练周期为30个周期,其中初始周期为热身阶段。切片编码器预训练使用了16个节点和4×80GB A100 GPU,大约耗时2天(3,072 A100 GPU小时)。
对于一个WSI的推理时间平均为0.7秒,包括0.4秒用于计算瓦片嵌入和0.3秒用于LongNet推理。
作者将Prov-GigaPath与4种比较方法进行了比较。
HIPT35是一个在TCGA的10,678张吉像素WSI上预训练的发布模型。它使用了一种分层图像金字塔变换器架构,具有256×256和4,096×4,096的图像视图。
作者可以将HIPT模型视为一个,并在4,096×4,096视图上添加了一个额外的嵌入聚合编码器。由于它使用了DINO自监督学习方法来训练256×256和4,096×4,096的图像编码器,HIPT的瓦片编码器预训练与Prov-GigaPath相同。
HIPT和Prov-GigaPath之间的主要区别在于聚合机制。
Prov-GigaPath使用长序列表示学习方法,通过切片编码器进行聚合,而HIPT在4,096×4,096的图像视图上使用了一个第二阶段的ViT。
CtransPath[41]结合了一个CNN模型和一个多尺度的SwinTransformer。
CtransPath使用了一种语义相关的对比学习目标来预训练模型,将每个输入图像及其增强视图视为正对,并将S检索到的语义相关图像作为伪正对。REMEDIS[42]使用Resnet作为主干,并在从29,018张TCGA切片随机抽样的5000万张病理图像上使用SimCLR方法进行预训练。在作者的实验中,作者选择了Resnet 152×2模型进行评估。
作者对Prov-GigaPath和其他基准模型进行了下游任务的微调。
对于Prov-GigaPath,作者冻结了瓦片编码器,只微调了LongNet切片级编码器。对于每张切片,LongNet产生一组上下文化的瓦片嵌入。这些嵌入通过一个浅层的ABMIL层进行聚合,以获得切片嵌入,然后用于下游预测任务的附加分类器。
当应用HIPT模型时,作者遵循默认设置,冻结了256×256和4,096×4,096的图像编码器,并微调了额外变换层和ABMIL层的参数。由于CtransPath和REMEDIS都是瓦片级编码器,作者直接应用了一个ABMIL层来获取切片嵌入,并主要微调了ABMIL层和分类器。
从Prov-Path,作者构建了任务:
- 泛癌症18生物标志物预测
- LUAD 5基因突变预测
- 泛癌症5基因突变预测
- LUAD 5基因突变预测(在TCGA)
- 整体TMB预测(补充表7和9)
是一个的问题,每个类别要么是突变要么是PD-L1。每个基因的阳性状态表示它发生了突变,或者PD-L1(由CD274编码)高度表达。
任务是5类的分类问题。包括5个基因(EGFR、FAT1、KRAS、TP53和LRP1B)的5基因突变预测任务被形式化为一个多标签预测任务,其中模型被要求预测所有基因的突变状态。
是一个2类的分类(高TMB与低TMB)。作者将这个任务形式化为一个图像二分类任务,其中每个图像根据肿瘤的体细胞突变数量被标注为“高TMB”和“低TMB”。这样的评估反映了模型从WSI中提取不同分子模式的能力。
对于每个患者,通常有多张WSI,作者选择了最大的WSI。这自然地在将数据集划分为训练、验证和测试集时实现了患者级别的分层。作者以基础学习率和权重衰减0.01对Prov-GigaPath模型进行了微调。
遵循的默认设置,作者以学习率对比较模型进行了训练。所有方法的训练批量大小设置为1,并进行了32次梯度累积步骤。作者对所有方法进行了的训练。性能通过以和来评估。
在这项研究中,作者对九种不同的癌症类型进行了亚型分类评估,以验证Prov-GigaPath模型的性能。
以下是每种癌症类型及其亚型的解释:
-
NSCLC (非小细胞肺癌):
- LUAD: 肺腺癌,非小细胞肺癌的一种亚型,主要发生在肺部的腺体细胞。
- LUSC: 肺鳞状细胞癌,非小细胞肺癌的另一种亚型,发生在肺部的鳞状细胞。
-
BRCA (乳腺癌):
- IDC: 乳腺浸润性导管癌,乳腺癌中最常见的亚型,起源于乳腺导管。
- ILC: 乳腺浸润性小叶癌,是乳腺癌的另一种亚型,起源于乳腺小叶。
-
RCC (肾细胞癌):
- CCRCC: 肾透明细胞癌,肾细胞癌中最常见的亚型。
- PRCC: 肾乳头状细胞癌,肾细胞癌的另一种亚型。
- CHRCC: 肾嗜铬细胞癌,较为罕见的肾细胞癌亚型。
-
COADREAD (结直肠癌):
- COAD: 结肠癌,发生在结肠的恶性肿瘤。
- READ: 直肠癌,发生在直肠的恶性肿瘤。
-
HB (肝胆癌):
- CHOL: 胆管癌,发生在胆管的癌症。
- HCC: 肝细胞癌,是最常见的肝癌类型,发生在肝脏细胞。
-
DIFG (弥漫性胶质瘤):
- GBM: 胶质母细胞瘤,一种侵袭性脑肿瘤。
- ODG: 少突胶质细胞瘤,一种较为少见的脑肿瘤。
- AODG: 间变少突胶质细胞瘤,少突胶质细胞瘤的侵袭性亚型。
- HGGNOS: 高级别胶质瘤,未特指类型。
- AASTR: 间变星形细胞瘤,星形细胞瘤的侵袭性亚型。
-
OVT (卵巢上皮性肿瘤):
- CCOV: 透明细胞卵巢癌,一种卵巢癌亚型。
- EOV: 内膜样卵巢癌,另一种卵巢癌亚型。
- HGSOC: 高级别浆液性卵巢癌,常见且侵袭性强的卵巢癌亚型。
- LGSOC: 低级别浆液性卵巢癌,相对较少见。
- MOV: 粘液性卵巢癌,较为罕见的卵巢癌亚型。
- OCS: 卵巢肉瘤/恶性混合性中胚层瘤,罕见的卵巢癌亚型。
-
CNS (中枢神经系统肿瘤):
- ATM: 非典型脑膜瘤,一种较常见的脑膜瘤亚型。
- MNG: 脑膜瘤,发生在脑膜的肿瘤。
-
EGC (食管胃腺癌):
- ESCA: 食管腺癌,发生在食管的恶性肿瘤。
- GEJ: 胃食管连接部腺癌,发生在食管与胃交界处的肿瘤。
- STAD: 胃腺癌,发生在胃的恶性肿瘤。
这些亚型分类评估有助于研究者了解Prov-GigaPath模型在不同癌症亚型识别方面的能力,进而评估其在临床诊断和治疗决策中的潜在应用价值。
作者对Prov-GigaPath模型进行了微调,基础学习率为4×10^-3,权重衰减为0.001,层间学习率衰减为0.9。训练超参数是根据验证集上的性能选择的。所有模型都进行了20个周期的微调,并使用10折交叉验证进行评估。对于Prov-GigaPath,作者额外添加了一个捷径到切片级编码器,以更多地关注瓦片级特征。
作者构建了17,383个病理WSI-报告对,并使用了OpenCLIP代码库进行视觉-语言处理。
由于真实的病理报告具有噪声且篇幅较长,作者首先通过删除与癌症诊断无关的信息(包括医院位置、医生姓名和患者姓名)来清洗原始病理报告。
具体来说,作者首先使用k-means将临床报告分为四个集群,并选择集群中心作为四个代表性的报告。然后,作者手动清理这四个报告,并获得了四对原始和清理后的报告。作者使用这四份报告作为上下文学习示例,并要求GPT-3.5根据这四个上下文学习示例清理所有其他报告(补充图9)。过滤前后整体标记长度的分布显示在补充图10中。文本嵌入使用OpenAI的text-embedding-ada-002模型计算。
最后,作者构建了17,383个WSI和清理后报告的视觉-语言对。作者从CLIP预训练中预留了20%的患者用于零样本预测任务。作者将CLIP训练的学习率设置为5×10^-4,批量大小为32。作者为视觉编码器和文本编码器训练了10个周期,其中前100次迭代作为热身阶段。
使用OpenAI的GPT-3.5模型来处理和去噪真实世界病理报告的过程。
以下是对这个模板的分析:
-
目的:
- 目的是清洗病理报告,移除与癌症诊断无关的信息,以便更好地用于癌症分析。
-
预处理步骤:
- 研究者首先从原始病理报告中选择了四个代表性的例子,并手动进行了清洗。
-
上下文学习示例:
- 清洗前后的报告被用作上下文学习示例,这些示例将指导GPT-3.5进行其他报告的清洗工作。
-
自动化清洗过程:
- GPT-3.5利用提供的上下文学习示例,自动清洗剩余的病理报告,以去除无关信息。
-
AI助手的角色:
- GPT-3.5在这里充当一个AI助手,帮助研究者完成病理报告的自动化清洗工作。
-
清洗标准:
- 清洗过程需要遵循一定的标准,确保报告中只包含对癌症诊断有用的信息。
-
模板的应用:
- 模板提供了一个清晰的框架,使得清洗过程可以一致地应用于所有病理报告。
-
结果验证:
- 清洗后的报告可能需要进一步验证,以确保信息的准确性和完整性。
-
数据预处理的重要性:
- 清洗步骤强调了在进行数据分析之前进行适当数据预处理的重要性。
-
AI在医疗数据分析中的应用:
- 这个例子展示了AI技术如何辅助医疗数据分析,特别是在处理和理解复杂的医疗记录方面。
总结来说,Supplementary Figure 9展示了一个结合了人工预处理和AI自动化的病理报告清洗流程。通过这种方式,研究者可以更有效地准备数据,以便用于后续的分析和模型训练。
在零样本预测任务中,作者选择了MI-Zero(PubMedBERT)【7】、BiomedCLIP【50】和PLIP【8】作为比较模型。
- MI-Zero(PubMedBERT)是在教育资源和ARCH数据集中从33,480个病理图像-标题对中训练的,这是一种基于多实例学习的零样本迁移方法,通过使用顶部K池化策略聚合多个瓦片。
- BiomedCLIP是在研究文章中从1500万对生物医学领域特定的图像-标题对中训练的。
- PLIP是一个使用来自Twitter的图像-文本对进行预训练的病理领域特定的视觉-语言模型。