새소식

Medical Segmentation

Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation

  • -

paper : https://arxiv.org/abs/2304.12620

 

Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation

The Segment Anything Model (SAM) has recently gained popularity in the field of image segmentation. Thanks to its impressive capabilities in all-round segmentation tasks and its prompt-based interface, SAM has sparked intensive discussion within the commun

arxiv.org

github : https://github.com/WuJunde/Medical-SAM-Adapter/tree/main

 

GitHub - WuJunde/Medical-SAM-Adapter: Adapting Segment Anything Model for Medical Image Segmentation

Adapting Segment Anything Model for Medical Image Segmentation - GitHub - WuJunde/Medical-SAM-Adapter: Adapting Segment Anything Model for Medical Image Segmentation

github.com


Introduction

최근 Segment Anything Model(SAM)이 general vision segmentation 모델로 폭발적인 인기를 얻고 있음.
하지만, "anything"이라는 키워드와 달리, medical image segmentation에서는 좋은 성능을 보여주지 못하고 있음.

 

최소한의 노력으로 SAM을 prompt-based medical image segmentation 모델로 확장해보자

 

 

1. SAM을 medical segmentation에 사용하고 싶은 이유:

   SAM의 interactive(prompt-based) segmentation이 segmentation task에 새로운 파라다임이 될것이라 생각

2. fine-tuning하는 이유:

  natural image에서 사전학습한 것이, medical image에서 이점이 될것이다!

3. 왜 fully fine-tuning이 아니라, PEFT(Paramter Efficient fine-tuning) & Adaption을 사용하는가:

   full fin-tuning과 비교해봤을때, 대부분의 parameter는 frozen시키고, 극히 일부 parameter만 학습(hot)시키면 빠르게 학습할 뿐 아니라, 기존 general함을 유지(나머지 parameter는 이전에 대량으로 학습된것이기 때문)


Methods

목표 : SAM을 medical image segmentation task에 잘 fine-tune 시켜보자!!!!

핵심

  • pre-train된 SAM의 parameter들은 frozen (모든 parameter 학습 X)
  • Adapter(HOT)를 특정 부분에 넣어서, 이 adapter의 parameter만 학습하자!!!
SAM architecture
주요 구성요소
   - image encoder : MAE에 pre-trained된 ViT
   - prompt encoder : sparse(points, boxes, text) & dense(masks) - 여기서는 sparse encoder에 집중
   - mask decoder : Transformer decoder

- adapter : bottelneck 구조

Adapter
MSA architecture

1. Adapter in Image encoder

- 위치 : multi-head attention 뒤, 2번째 residual path (b)

- 다차원 이미지 처리(difference in image dimension)를 위한 변형 (c)

    - medical에서는 3D image(CT, MRI ..)가 많이 쓰이는데, 이런 3D modality는 slice간 correlation을 고려해야 함.

    - Solution : Space Branch(slice 고려)와 Depth Branch(slice간 연관성 고려)로 나눔

        - Space Branch은 기존 그대로 수행하고, Depth Branch에서 서로다른 slice간 연관성을 학습 한 다음 space branch의 결과값에 더해줌

 

2. Adapter in Mask Decoder (d)

- 첫번째 adapter : prompt의 정보를 고려하기 위해, 기존 adapter 구조 살짝 변형


Experiments

dataset : AMOS2022, BTCV, REFUGE, RIGA, BraTS, TNSCUI, DDTI, ISIC

 

BTCV dataset & AMOS2022 dataset(abdnormal multi-organ segmentation)

- MedSAM : fully-fine-tunned SAM

AMOS2022 dataset & BTCV dataset

  • SAM의 zero-shot 성능은 medical image에서는 보여주지 못함(다른 natural 이미지에서 보여주는 zero-shot 성능에 비해)
  • 많은 organ에서 MSA가 가장 높은 성능을 보임 => 알맞은 fine-tunning 기술(Adapter) + 강력한 pre-trained model(SAM)이 medical image segmentation에 매우 좋다!

qualitative 비교 : MSA vs SAM

- 쉬운 case에서도 실패하는 SAM(:medical에서는 많이 힘들어 하는구나)에 비해 MSA는 비교적 잘 맞추고 있음

다양한 modality에서 성능비교


Conclusion

- MSA(Medical Segmenatation Anything) : general segmentation model인 SAM을 medical image segmentation으로 확장.

- parameter-efficient Adapter를 사용함으로써, 효율적으로 medical image에서 기존 SAM보다 좋은 성능을 보임

- HOPE : general medical image segmentation의 진보 & fine-tuning 기술 발전

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.