본문 바로가기

고려대학교 대학원 인공지능학과 학석사 연계과정 석사 (이성환 교수님 PRML 연구실) 바로가기

728x90

반응형

vlm

728x90

반응형

1

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 1. Abstract & IntroductionCLIP, ALIGN 이후 Large web scale 데이터로 VLP 모델을 학습시키기 시작.두가지 문제 존재데이터 관점 : Large web scale data 특성상 image와 text 데이터에 noise가 많다는 한계점이 존재.→ 잘못된 캡션을 걸러내고, 새로운 캡션을 사용하여 데이터 셋을 bootstrapping하는 CapFilt 구조를 제시하여 위의 한계점을 극복.모델 관점 : 구조적 한계 때문에 특정 task(Image understanding, Text generation 등)에만 강력.구조적 한계대부분이 인코더-디코더 모델인코더 기반 모델은 텍스트 생성 작업(예: 이미지 캡션)에 적용하기가 쉽지 않음인코더-디코더 모델은 이미지-텍스트 검색 .. 2024. 5. 26.

이전 1 다음

티스토리툴바