AI
-
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
1. Abstract & IntroductionCLIP, ALIGN 이후 Large web scale 데이터로 VLP 모델을 학습시키기 시작.두가지 문제 존재데이터 관점 : Large web scale data 특성상 image와 text 데이터에 noise가 많다는 한계점이 존재.→ 잘못된 캡션을 걸러내고, 새로운 캡션을 사용하여 데이터 셋을 bootstrapping하는 CapFilt 구조를 제시하여 위의 한계점을 극복.모델 관점 : 구조적 한계 때문에 특정 task(Image understanding, Text generation 등)에만 강력.구조적 한계대부분이 인코더-디코더 모델인코더 기반 모델은 텍스트 생성 작업(예: 이미지 캡션)에 적용하기가 쉽지 않음인코더-디코더 모델은 이미지-텍스트 검색 ..
2024.05.26
-
Multimodal Prompting with Missing Modalities for Visual Recognition
요즘 ChatGPT 처럼 multimodal input (vision, language) 을 받아 여러 task에 적용될 수 있는 연구이다. 특히 train, test 시 모든 모달리티가 존재하리라는 보장이 없는데 이때 성능을 유지하면서 학습할 파라미터 수를 1% 로 줄인 논문이다. CVPR 2023에 개제된 논문. Abstract 이 논문은멀티모달 학습에 대한 시각 인식 기술에 대해 다루고 있으며, 실제 상황에서의 누락된 모달리티 문제와 계산 리소스 제약에 대한 해결책을 제안합니다. 프롬프트 학습 프레임워크를 사용하여 모델의 성능을 향상시키고 모델 재학습의 필요성을 줄일 수 있다는 실험 결과를 제시합니다. 1. Introduction 멀티모달 트랜스포머는 다중 모달 정보를 모델링하고 조정하는데 사용되며..
2023.10.31
-
2D Pose estimation 연구 시작 & 강의 추천
강의 소개 안녕하세요! 3월 초 제 포즈 추정 강의가 오픈되었습니다! 인프런에서 오픈되었는데요. 최근에 대학원 석사과정을 졸업하면서 그동안 연구했던 포즈 추정에 대해 집약적으로 빠르게 연구를 시작하는 방법, 혹은 졸업 프로젝트나 공모전 등에서 더이상 Object Detection 객체 인식이 아니라 포즈 추정을 빠르게 적용해볼 수 있게 강의가 구성되어 있습니다. 아래에 강의 링크를 올려두었으니 한 번 확인해보세요! https://www.inflearn.com/course/기초실전-2d-인간-포즈추정 대학원 졸업생이 알려주는 기초 + 실전 2D Pose estimation 따라하기 - 인프런 | 강의 포즈 추정의 최신 트렌드, 이미지와 비디오에서 포즈 추정을 하는 최신 방법에 대해 배우고, 나만의 동영상에..
2023.03.12
-
리눅스 우분투 및 설치 딥러닝 cuda 환경 설정
Ubuntu - Linux 환경 설정 1. iso 파일 다운로드 20.04 https://releases.ubuntu.com/20.04.5/?_ga=2.34935713.1212646983.1674804671-691064469.1662439683 사이트 접속 후 Desktop image 버전 다운로드 2. Ubuntu 부팅 usb 만들기 https://rufus.ie/ko/ 사이트 접속 후 Rufus 3.21 눌러 다운로드 다운로드 받았던 iso 파일 불러와서 usb 포맷 후 부팅 usb로 만들어주기 부트 유형 - 디스크 또는 iso 이미지 (선택하십시오) 에서 다운받은 파일 선택 시작 버튼 누른 후 iso 이미지 모드로 쓰기 (권장) 설치 후 재부팅한 뒤 Del 키 눌러 bios 모드로 들어가서 usb로..
2023.01.27
-
LG전자 2022 R&D 석박사 산학장학생 후기
제가 이번에 2022 상반기 LG전자 산학장학생에 합격해서 준비했던 과정을 정리하려고 합니다. 붙은 지 조금 지나긴 했지만 기억나는데로 적어볼게요ㅎㅎ.. 먼저 저는 인공지능 컴퓨터 비전에서 대학원 석사과정을 마쳐가고 있어서 CTO부문에 지원했었어요. 3지망까지 지원할 수 있었고, 저는 학교에 채용 설명회 오셔서 설명듣고 지원했었습니다. 채용 절차 서류 전형 → 인적성 → 코딩 테스트 → 1차 면접 → 건강 검진 → 2차 면접 + 3차 면접 (?) 채용절차는 먼저 서류전형 통과 후에 인적성 검사, 코딩 테스트가 있었고, 이후 면접이 진행되는 방식이었어요. 인적성이랑 코딩테스트는 주말 토요일 일요일에 연달아서 봤었고, 코딩 테스트 결과가 1주일 정도 뒤에 발표 되었었는데 그 주에 전화로 영어 면접 짧게 자기..
2022.10.22
Latest
-
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
1. Abstract & IntroductionCLIP, ALIGN 이후 Large web scale 데이터로 VLP 모델을 학습시키기 시작.두가지 문제 존재데이터 관점 : Large web scale data 특성상 image와 text 데이터에 noise가 많다는 한계점이 존재.→ 잘못된 캡션을 걸러내고, 새로운 캡션을 사용하여 데이터 셋을 bootstrapping하는 CapFilt 구조를 제시하여 위의 한계점을 극복.모델 관점 : 구조적 한계 때문에 특정 task(Image understanding, Text generation 등)에만 강력.구조적 한계대부분이 인코더-디코더 모델인코더 기반 모델은 텍스트 생성 작업(예: 이미지 캡션)에 적용하기가 쉽지 않음인코더-디코더 모델은 이미지-텍스트 검색 ..
2024.05.26
-
백준 15705 단어 찾기
N*M 배열에 단어 S 있으면 1 반환 없으면 0 반환 브루트 포스 방식, 완전 탐색 python 풀이 import sys def Input_Data(): readl = sys.stdin.readline word = str(readl().split()[0]) N, M = map(int, readl().split()) word_map = [[i for i in str(readl().split()[0])] for _ in range(N)] return word, N, M, word_map def chk_word(r, c): for dy, dx in d: idx = 0 if word_map[r][c] == word[idx]: nr, nc = r+dy, c+dx idx += 1 while 0
2024.02.24
-
Multimodal Prompting with Missing Modalities for Visual Recognition
요즘 ChatGPT 처럼 multimodal input (vision, language) 을 받아 여러 task에 적용될 수 있는 연구이다. 특히 train, test 시 모든 모달리티가 존재하리라는 보장이 없는데 이때 성능을 유지하면서 학습할 파라미터 수를 1% 로 줄인 논문이다. CVPR 2023에 개제된 논문. Abstract 이 논문은멀티모달 학습에 대한 시각 인식 기술에 대해 다루고 있으며, 실제 상황에서의 누락된 모달리티 문제와 계산 리소스 제약에 대한 해결책을 제안합니다. 프롬프트 학습 프레임워크를 사용하여 모델의 성능을 향상시키고 모델 재학습의 필요성을 줄일 수 있다는 실험 결과를 제시합니다. 1. Introduction 멀티모달 트랜스포머는 다중 모달 정보를 모델링하고 조정하는데 사용되며..
2023.10.31