본문 바로가기

728x90
반응형
AI
728x90
반응형
28

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 1. Abstract & IntroductionCLIP, ALIGN 이후 Large web scale 데이터로 VLP 모델을 학습시키기 시작.두가지 문제 존재데이터 관점 : Large web scale data 특성상 image와 text 데이터에 noise가 많다는 한계점이 존재.→ 잘못된 캡션을 걸러내고, 새로운 캡션을 사용하여 데이터 셋을 bootstrapping하는 CapFilt 구조를 제시하여 위의 한계점을 극복.모델 관점 : 구조적 한계 때문에 특정 task(Image understanding, Text generation 등)에만 강력.구조적 한계대부분이 인코더-디코더 모델인코더 기반 모델은 텍스트 생성 작업(예: 이미지 캡션)에 적용하기가 쉽지 않음인코더-디코더 모델은 이미지-텍스트 검색 .. 2024. 5. 26.
Multimodal Prompting with Missing Modalities for Visual Recognition 요즘 ChatGPT 처럼 multimodal input (vision, language) 을 받아 여러 task에 적용될 수 있는 연구이다. 특히 train, test 시 모든 모달리티가 존재하리라는 보장이 없는데 이때 성능을 유지하면서 학습할 파라미터 수를 1% 로 줄인 논문이다. CVPR 2023에 개제된 논문. Abstract 이 논문은멀티모달 학습에 대한 시각 인식 기술에 대해 다루고 있으며, 실제 상황에서의 누락된 모달리티 문제와 계산 리소스 제약에 대한 해결책을 제안합니다. 프롬프트 학습 프레임워크를 사용하여 모델의 성능을 향상시키고 모델 재학습의 필요성을 줄일 수 있다는 실험 결과를 제시합니다. 1. Introduction 멀티모달 트랜스포머는 다중 모달 정보를 모델링하고 조정하는데 사용되며.. 2023. 10. 31.
2D Pose estimation 연구 시작 & 강의 추천 강의 소개 안녕하세요! 3월 초 제 포즈 추정 강의가 오픈되었습니다! 인프런에서 오픈되었는데요. 최근에 대학원 석사과정을 졸업하면서 그동안 연구했던 포즈 추정에 대해 집약적으로 빠르게 연구를 시작하는 방법, 혹은 졸업 프로젝트나 공모전 등에서 더이상 Object Detection 객체 인식이 아니라 포즈 추정을 빠르게 적용해볼 수 있게 강의가 구성되어 있습니다. 아래에 강의 링크를 올려두었으니 한 번 확인해보세요! https://www.inflearn.com/course/기초실전-2d-인간-포즈추정 대학원 졸업생이 알려주는 기초 + 실전 2D Pose estimation 따라하기 - 인프런 | 강의 포즈 추정의 최신 트렌드, 이미지와 비디오에서 포즈 추정을 하는 최신 방법에 대해 배우고, 나만의 동영상에.. 2023. 3. 12.
리눅스 우분투 및 설치 딥러닝 cuda 환경 설정 Ubuntu - Linux 환경 설정 1. iso 파일 다운로드 20.04 https://releases.ubuntu.com/20.04.5/?_ga=2.34935713.1212646983.1674804671-691064469.1662439683 사이트 접속 후 Desktop image 버전 다운로드 2. Ubuntu 부팅 usb 만들기 https://rufus.ie/ko/ 사이트 접속 후 Rufus 3.21 눌러 다운로드 다운로드 받았던 iso 파일 불러와서 usb 포맷 후 부팅 usb로 만들어주기 부트 유형 - 디스크 또는 iso 이미지 (선택하십시오) 에서 다운받은 파일 선택 시작 버튼 누른 후 iso 이미지 모드로 쓰기 (권장) 설치 후 재부팅한 뒤 Del 키 눌러 bios 모드로 들어가서 usb로.. 2023. 1. 27.
LG전자 2022 R&D 석박사 산학장학생 후기 제가 이번에 2022 상반기 LG전자 산학장학생에 합격해서 준비했던 과정을 정리하려고 합니다. 붙은 지 조금 지나긴 했지만 기억나는데로 적어볼게요ㅎㅎ.. 먼저 저는 인공지능 컴퓨터 비전에서 대학원 석사과정을 마쳐가고 있어서 CTO부문에 지원했었어요. 3지망까지 지원할 수 있었고, 저는 학교에 채용 설명회 오셔서 설명듣고 지원했었습니다. 채용 절차 서류 전형 → 인적성 → 코딩 테스트 → 1차 면접 → 건강 검진 → 2차 면접 + 3차 면접 (?) 채용절차는 먼저 서류전형 통과 후에 인적성 검사, 코딩 테스트가 있었고, 이후 면접이 진행되는 방식이었어요. 인적성이랑 코딩테스트는 주말 토요일 일요일에 연달아서 봤었고, 코딩 테스트 결과가 1주일 정도 뒤에 발표 되었었는데 그 주에 전화로 영어 면접 짧게 자기.. 2022. 10. 22.
고려대학교 정보대학 인공지능학과 이성환 교수님 PRML연구실 학석사 연계과정 (석사) 합격 후기 석사 3학기 차이지만 준비하시는 분들 혹시나 도움이 될까 해서 이제라도 글 남겨보려고 합니다. 원래 취미 블로그로 활용할 생각이었기도 했구요.😅 저는 고려대학교 인공지능 이성환 교수님 연구실에서 석사과정 중인 대학원생입니다! 학사는 본교 컴퓨터학과와 인공지능 융합전공을 공부했고, 학석사 연계과정은 제 중학생 때부터 친구였던 같은 인공지능 공부 중인 친구로부터 알게 되어서 지원했는데 잘 붙어서 1년 단축이라는 이점을 잘 누리고 있어요.ㅎㅎ 그래서 따로 다른 학교 인공지능학과는 지원하지 않았었습니다. 학부생 때 성적은 전체평점 3.99 / 4.5, 전공평점 4.02 / 4.5, 융합전공 평점 4.1667/ 4.5 이렇게 됩니다! 학점이 생각보다 중요한 거 같아요. 면접 후기 저는 코로나 때 면접을 봐서 비대.. 2022. 9. 12.
Swin Transformer 논문 리뷰 - Hierarchical Vision Transformer using Shifted Windows Ze Liu† / Yutong Lin† / Yue Cao / Han Hu / Yixuan Wei† / Zheng Zhang / Stephen Lin / Baining Guo ICCV 2021 에 발표된 Microsoft Research Asia의 논문 Swin Transformer 리뷰입니다. 😊 Motivation & Contributions Language 분야와 달리 비전 분야에 고화질 픽셀의 규모에 대해 트랜스포머를 적용하기 어려움을 지적하고 Hierarchical transformer 구조를 활용하고 window 내 어텐션을 통해 효율적으로 성능을 개선합니다. 이 논문은 Hierarchical Transformer를 통해 다양한 스케일에 대해 flexible한 모델을 만들 수 있고, 이미지 크기.. 2022. 6. 26.
Transformer vs CNN, LSTM 비교, Attention is all you need Transformer vs CNN 트랜스포머는 multihead self attention을 사용해 long range dependencies를 잘 모델링한다. Convolution 은 receptive field 가 제한되어 네트워크 depth 가 늘어나면서 linear하게 커진다. 트랜스포머는 귀납적 편향(inductive bias)가 부족해 large scale에서 트랜스포머의 이점이 발견된다. Transformer vs LSTM RNN, LSTM의 약점으로 많이 언급되었던 것은 input을 순차적으로 받아 병렬처리가 어렵다는 점이었다. 순차적으로 입력받는 것이, 각 input의 위치정보를 반영할 수 있게 해주었는데, Transformer는 순차적으로 Data를 넣는 것이 아니라, Sequence를.. 2022. 1. 18.
mAP 계산 (mean Average Precision) for Object Detection, pose estimation mAP (mean Average Precision) 은 컴퓨터비전 분야인 object detection, 최근에는 pose estimation 분야에서도 모델 평가에 사용되는 지표다. 이를 이해하려면 precision 과 recall에 대해 알아야 하는데 머신러닝 수업에서 많이 들어봤을 것이다. ground truth \ prediction Positive Negative Positive True Positive Fasle Negative Negative False Positive True Negative $$Precision = \frac{TP}{TP+FP}$$ $$Recall = \frac{TP}{TP+FN}$$ 즉 precision 은 옳다고 예측한 것들 중에 실제 옳은 것의 비율, recall은 .. 2022. 1. 15.
ViViT: A Video Vision Transformer Abstract video classification을 위한 pure-transformer based models. input video로부터 spatio-temporal tokens을 추출하고 연속된 transformer layers로 encoding. 학습 시 효율적으로 model를 regularise하는 방법으로 기존의 ViT와는 반대로 작은 dataset에서도 좋은 성능. Introduction transformer의 등장 이후 매우 빠른 발전 multi-headed self-attention을 바탕으로 long-range dependencies를 효과적으로 모델링 ⇒ input sequence의 국지적인 요소가 아닌 전체를 볼 수 있었기 때문 ViT (Vision Transformer) ViT는.. 2021. 12. 29.