728x90 반응형 vlm 728x90 반응형 1 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 1. Abstract & IntroductionCLIP, ALIGN 이후 Large web scale 데이터로 VLP 모델을 학습시키기 시작.두가지 문제 존재데이터 관점 : Large web scale data 특성상 image와 text 데이터에 noise가 많다는 한계점이 존재.→ 잘못된 캡션을 걸러내고, 새로운 캡션을 사용하여 데이터 셋을 bootstrapping하는 CapFilt 구조를 제시하여 위의 한계점을 극복.모델 관점 : 구조적 한계 때문에 특정 task(Image understanding, Text generation 등)에만 강력.구조적 한계대부분이 인코더-디코더 모델인코더 기반 모델은 텍스트 생성 작업(예: 이미지 캡션)에 적용하기가 쉽지 않음인코더-디코더 모델은 이미지-텍스트 검색 .. 2024. 5. 26. 이전 1 다음