# Foundation # Medical # Wide sperctrum of tasks
Paper : https://arxiv.org/abs/2304.12306
Segment Anything in Medical Images
Medical image segmentation is a critical component in clinical practice, facilitating accurate diagnosis, treatment planning, and disease monitoring. However, current methods predominantly rely on customized models, which exhibit limited generality across
arxiv.org
Code : https://github.com/bowang-lab/MedSAM/tree/main
GitHub - bowang-lab/MedSAM: The official repository for MedSAM: Segment Anything in Medical Images.
The official repository for MedSAM: Segment Anything in Medical Images. - GitHub - bowang-lab/MedSAM: The official repository for MedSAM: Segment Anything in Medical Images.
github.com
최근까지도 Medical Image Segmentation 과제를 model을 custom 하는데 의존하는 경향이 있음.
한계) customizing model은 다양한 task에서의 generality에는 한계 존재.
1M 이상의 medical dataset을 통해 학습한 Medical Foundation model: MedSAM 소개 (dataset으로 승부)
INTRODUCTION
Deep learning-based models은 medical image segmentation 분야에서 발전이 이루어지고 있음.
(한계) 각 모델들은 자기가 학습한 환경에만 task-specific 함
현재 natural 분야에서는 segmentation foundation models 이 나왔고, 그 성능과 generality 를 입증함.
foundation model : 범용성(versatility) & 다양한 task에 대해서도 보다 일관된 결과 도출
medical과 natural 간의 domain gap 존재 -> nutural segmentation model을 바로 medical image에 적용하기는 어려움
MedSAM: first foundation model for universal medical image segmentation 제안 - SAM 모델을 거대한 scale의 medical dataset으로 학습 수행 - training dataset : 1 million이 넘는 image-mask 쌍"우리는 unprecedented scale dataset 으로 foundation model을 만들겠어!"
METHOD
Dataset curation & pre-proessing
publicly available medical image segmentation datasets 수집
format 통일
3D datasets(CT, MR) : NifTI format으로 변환
grayscale images(X-Ray, US) + RGB images(endoscopy, dermoscopy, fundus, pathology) : png format
그 외 데이터 일관성을 위한 기준들 적용
각 modality별 image inensities(강도)가 천차만별 -> 안정적인 훈련을 위해, 모든 이미지들에 대한 intensity normalization 적용 -> 같은 intensity range 보장
MODEL input size 통일
uniform size : 1024 x 1024 x 3
whole-slide pathology images : sliding window를 통해 patches 추출
3D CT & MR images : 2D slice를 1024 x 1024 resize & x3 repeat => 1024 x 1024 x 3
resizing technique
image : Bi-cubic interpolation
mask : nearest-neighbor interpolation(외곽선 유지)
이런 processing 절차를 통해 uniformity & compatibility 보장
Network architecture
SAM 구조 사용
ViT-based image encoder - base ViT model 사용(MAE pretraining weight 사용)
prompt encoder
mask decoder
Training protocol & experimental setting
데이터 전처리를 통해, 총 1,096,486 medical image-mask fair dataset 구축 (external validation sets 제외)
Internal validation : dataset을 80(train)/10(valid)/10(test)로 나누어, 일부를 사용해 평가
external validation : 학습에 사용하지 않은 hold-out datasets를 사용해 평가 - model의 generalization 능력 평가에 더 좋
experimental setting
pre-trained SAM(with. ViT-Base) 사용
prompt encoder는 freeze(이미 bbox 잘 encoding) & mask decoder, image encoder는 hot(parameter update 수행)
bbox prompt : GT mask를 이용
Loss function = Dice loss + Cross-entropy loss
AdamW optimizer, 초기 lr = 1e-4, weight decay : 0.01
batch size : 160
data augmentation X
train environment : A100(80GB) 20ea
epoch : 200
비교 실험을 위해 U-Net 학습
U-Net은 학습 데이터셋을 4개의 categories로 나누어 각 학습 진행
CT images
MR images
grey images(chest X-Ray(CXR), ultrasound, mammography, OCT)
RGB images(pathology, endoscopy, dermoscopy)
각 cateogy별 학습한 U-Net vs 전체 dataset으로 한번 학습한 MedSAM : 비교 실험 진행
MedSAM의 성능을 6명의 experts와 비교
human experts과 비교했을떄 충분히 경쟁력있는 or 더 좋은 결과를 보여줌
Evaluation metrics
Dice Similarity Coefficinet(DSC) & Normalized Surface Distance(NSD) 사용
DSC : region -based segmentation metric(두 영역이 겹치는 범위 측정)
NSD : boundary -based metric(두 boundary의 일치도)
DSC equation
NSD equation
Statistical analysis
성능 비교를 위해 3개의 model 사용 : SAM, U-Net, MedSAM(ours)
Wilcoxon signed-rank test 수행
더보기
Internal validation & External validation Internal validation results on CT image segmentation tasks
Internal validation results on MR image segmentation tasks
Internal validation results on grey images (Chest X-Ray (CXR), Mammography, OCT, and Ultrasound) segmentation tasks
Internal validation results on RGB images (Dermoscopy, Endoscopy, Fundus, and Pathology) segmentation tasks
External validation results on CT image segmentation tasks
External validation results on MR image segmentation tasks
External validation results on Chest X-Ray (CXR), Dermoscopy, Endoscopy, Fundus, and Pathology image segmentation tasks
DISCUSSION
MedSAM은 capabilities를 보여주었지만, 몇가지 한계점 존재
training dataset 내에서 modality 불균형 - CT, MRI가 대부분
vessel-like branching structures의 어려움
Conclusion > medical domain에서의 단일 foundation model : MedSAM을 제안 (diverse modalities & wide array of anatomical structres) > large-scale dataset 구축 및 학습 수행 > 모든 medical task를 하나의 모델로 segmentation 수행 가능(task-specific free)