728x90 반응형 AI/Multimodal 728x90 반응형 1 Multimodal Prompting with Missing Modalities for Visual Recognition 요즘 ChatGPT 처럼 multimodal input (vision, language) 을 받아 여러 task에 적용될 수 있는 연구이다. 특히 train, test 시 모든 모달리티가 존재하리라는 보장이 없는데 이때 성능을 유지하면서 학습할 파라미터 수를 1% 로 줄인 논문이다. CVPR 2023에 개제된 논문. Abstract 이 논문은멀티모달 학습에 대한 시각 인식 기술에 대해 다루고 있으며, 실제 상황에서의 누락된 모달리티 문제와 계산 리소스 제약에 대한 해결책을 제안합니다. 프롬프트 학습 프레임워크를 사용하여 모델의 성능을 향상시키고 모델 재학습의 필요성을 줄일 수 있다는 실험 결과를 제시합니다. 1. Introduction 멀티모달 트랜스포머는 다중 모달 정보를 모델링하고 조정하는데 사용되며.. 2023. 10. 31. 이전 1 다음