728x90 반응형 AI/Multimodal 728x90 반응형 2 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 1. Abstract & IntroductionCLIP, ALIGN 이후 Large web scale 데이터로 VLP 모델을 학습시키기 시작.두가지 문제 존재데이터 관점 : Large web scale data 특성상 image와 text 데이터에 noise가 많다는 한계점이 존재.→ 잘못된 캡션을 걸러내고, 새로운 캡션을 사용하여 데이터 셋을 bootstrapping하는 CapFilt 구조를 제시하여 위의 한계점을 극복.모델 관점 : 구조적 한계 때문에 특정 task(Image understanding, Text generation 등)에만 강력.구조적 한계대부분이 인코더-디코더 모델인코더 기반 모델은 텍스트 생성 작업(예: 이미지 캡션)에 적용하기가 쉽지 않음인코더-디코더 모델은 이미지-텍스트 검색 .. 2024. 5. 26. Multimodal Prompting with Missing Modalities for Visual Recognition 요즘 ChatGPT 처럼 multimodal input (vision, language) 을 받아 여러 task에 적용될 수 있는 연구이다. 특히 train, test 시 모든 모달리티가 존재하리라는 보장이 없는데 이때 성능을 유지하면서 학습할 파라미터 수를 1% 로 줄인 논문이다. CVPR 2023에 개제된 논문. Abstract 이 논문은멀티모달 학습에 대한 시각 인식 기술에 대해 다루고 있으며, 실제 상황에서의 누락된 모달리티 문제와 계산 리소스 제약에 대한 해결책을 제안합니다. 프롬프트 학습 프레임워크를 사용하여 모델의 성능을 향상시키고 모델 재학습의 필요성을 줄일 수 있다는 실험 결과를 제시합니다. 1. Introduction 멀티모달 트랜스포머는 다중 모달 정보를 모델링하고 조정하는데 사용되며.. 2023. 10. 31. 이전 1 다음