최근 Segment Anything Model(SAM)이 general vision segmentation 모델로 폭발적인 인기를 얻고 있음. 하지만, "anything"이라는 키워드와 달리, medical image segmentation에서는 좋은 성능을 보여주지 못하고 있음.
최소한의 노력으로 SAM을 prompt-based medical image segmentation 모델로 확장해보자
1. SAM을 medical segmentation에 사용하고 싶은 이유:
SAM의 interactive(prompt-based) segmentation이 segmentation task에 새로운 파라다임이 될것이라 생각
2. fine-tuning하는 이유:
natural image에서 사전학습한 것이, medical image에서 이점이 될것이다!
3. 왜 fully fine-tuning이 아니라, PEFT(Paramter Efficient fine-tuning) & Adaption을 사용하는가:
full fin-tuning과 비교해봤을때, 대부분의 parameter는 frozen시키고, 극히 일부 parameter만 학습(hot)시키면 빠르게 학습할 뿐 아니라, 기존 general함을 유지(나머지 parameter는 이전에 대량으로 학습된것이기 때문)
Methods
목표 : SAM을 medical image segmentation task에 잘 fine-tune 시켜보자!!!!
핵심
pre-train된 SAM의 parameter들은 frozen (모든 parameter 학습 X)
Adapter(HOT)를 특정 부분에 넣어서, 이 adapter의 parameter만 학습하자!!!
SAM architecture 주요 구성요소 - image encoder : MAE에 pre-trained된 ViT - prompt encoder : sparse(points, boxes, text) & dense(masks) - 여기서는 sparse encoder에 집중 - mask decoder : Transformer decoder
- adapter : bottelneck 구조
AdapterMSA architecture
1. Adapter in Image encoder
- 위치 : multi-head attention 뒤, 2번째 residual path (b)
- 다차원 이미지 처리(difference in image dimension)를 위한 변형 (c)
- medical에서는 3D image(CT, MRI ..)가 많이 쓰이는데, 이런 3D modality는 slice간 correlation을 고려해야 함.