Multimodal 모델이란?
서로 다른 형태(modality)의 입력(예: 텍스트·이미지·음성·비디오 등)을 함께 처리하여, 통합된 표현을 학습하고 다양한 과업에 활용하는 모델이다. 멀티모달 러닝은 “이미지, 텍스트, 음성 등 다양한 데이터를 동시에 학습”한다는 점이 특이할 뿐, 데이터→모델→손실→최적화→평가라는 머신러닝의 핵심 과정을 똑같이 따르므로 머신러닝의 한 부분이다.
유사 개념 비교
-
- Unimodal model: 단일 형태의 데이터(예: 텍스트만, 이미지만) → 모델
- Multimodal Learning: 복수 형태의 데이터(예: 이미지+텍스트) → 하나의 모델
- Multitask Learning: 단일 입력에 여러 과업을 동시에 학습 (예: 텍스트 입력 → 번역·요약 동시 수행)
주요 갈래: 멀티모달 AI가 언어(텍스트) 쪽과 시각(이미지·비디오) 쪽 두 분야를 모두 아우른다
- NLP (Natural Language Processing, 자연어 처리)
- 텍스트 데이터를 이해·생성하는 AI 분야
- 멀티모달 AI에서는 “Vision–Language Models”처럼 언어 모델에 이미지 정보를 결합해, 이미지 설명·시각 질문응답 등을 다룬다.
- CV (Computer Vision, 컴퓨터 비전)
- 이미지·비디오 데이터를 이해·분석하는 AI 분야
- 멀티모달 AI에서는 “Text-to-Image 생성 모델”처럼 텍스트를 입력받아 이미지를 생성하거나, 이미지 속 객체를 텍스트로 기술하는 과업을 포함한다.
즉, 멀티모달 AI의 두 축이 “텍스트+이미지” 간 결합 관점(NLP에서 발전) + “텍스트→이미지 생성” 관점(CV에서 발전)인 셈이다.
Multimodal Learning 의 주요 Tasks
멀티 모달 러닝은 서로 다른 형태의 데이터를 함께 다루는 학습방법이다.
Question & Answering: 추가로 관련 이미지나 음성등을 입력으로 받아 해당 질문에 답변 생성
- 예시: 사용자가 스마트폰 카메라로 찍은 사진을 업로드하고 “이 과일이 무슨 종류인가요?”라고 물으면, 모델이 이미지 안 과일을 분석해 “사과입니다”라고 답변
- 적용 분야: 시각 장애인을 위한 이미지 설명 서비스, 전자상거래 상품문의 (상품 사진 올리면 속성·가격·재고 정보 응답)
Text-to-Image Retrieval: 텍스트와 이미지간의 의미적 연관성을 파악하여 이미지 검색
- 예시: “파란색 티셔츠를 입은 남성이 달리는 사진”이라는 문장을 검색창에 입력하면, 관련된 스톡 사진·상품 이미지 목록 반환
- 적용 분야: 마케팅·광고용 스톡 이미지 검색, 뉴스 기사 작성 시 관련 이미지를 자동 추천
Text-to-Image Generation: 텍스트 묘사를 입력으로 받아서 이미지 생성
- 예시: “환상적인 숲속에서 빛나는 요정”이라는 프롬프트를 입력하면, AI가 해당 장면을 그린 일러스트를 생성
- 적용 분야: 책·게임 일러스트 제작, 디자인 시안 초안 자동 생성
Emotion Recognition: 텍스트, 음성, 표정 등 다양한 모달리티의 데이터를 분석하여 감정 파악
- 예시: 고객센터 콜센터 통화 녹음에서 “화난 목소리”와 “짜증 섞인 어조”를 감지해, 상담원이 신속히 대응하도록 알림
- 적용 분야: 온라인 강의 중 학생 표정·목소리로 “이해도 낮음” 경고, 소셜 미디어 영상의 감정 트렌드 분석
Video Summarization: 비디오 시각정보와 음성 정보를 모두 활용하여 간결한 요약 생성
- 예시: 1시간짜리 세미나 녹화 영상을 업로드하면, 주요 키워드와 핵심 내용을 3~5분짜리 요약 영상 혹은 텍스트로 자동 생성
- 적용 분야:
- 회의록 작성 자동화
- 장시간 강의·강연의 빠른 리뷰
Speech Recognition & Synthesis :음성-텍스트 간의 관계를 학습하고 음성 -> 텍스트, 텍스트 -> 음성
- 예시 ASR: 기자회견 음성 녹음을 텍스트로 자동 전사
- 예시 TTS: 기사 텍스트를 자연스러운 목소리로 읽어주는 내비게이션 안내 음성 생성
- 적용 분야: 음성 메모→문서 변환, 시각 장애인용 전자책 낭독
Multimodal Model의 주요 Challenge
- Data Representation 서로 다른 modality의 특징(feature)을 어떻게 동일 공간에 효과적으로 임베딩할 것인가
- Multimodal Fusion 멀티모달 정보를 언제, 어떻게 합칠 것인가 (early fusion vs. late fusion vs. hybrid)
- Early Fusion: 입력 단계에서 미리 결합 → 모델이 감당해야 할 복합도가 급증
- Late Fusion: 각 모달리티별로 독립 처리 후 결과만 결합 → 깊은 상호작용 포착이 어려움
- Hybrid: 중간 단계 결합 → 구조 설계·학습 안정성 확보가 까다로움
- Translation & Alignment 텍스트와 이미지의 어느 부분이 대응되는지 정밀하게 맞추기
- Multimodal Learning 다양한 과업과 데이터셋을 동시에 학습시키며 성능 저하를 방지
모델 아키텍처 & 학습 흐름
- Pretrained Language Model
- 예: BERT, GPT-3/4, PaLM, LLaMA 등
- 순수 텍스트를 이해·생성하는 능력을 이미 학습해 둔 거대한 언어 네트워크
- Pretrained Vision Model
- 예: Vision Transformer(ViT), Swin Transformer, BEiT, DINO 등
- 순수 이미지(또는 비디오)를 이해하는 능력을 학습한 시각 네트워크
이 두 모델이 “각각의 영역(텍스트 vs. 이미지)을 잘 처리”할 수 있도록 준비돼 있다는 뜻
Alignment Module (정렬/융합 모듈)
- 언어·시각 백본이 뽑아낸 벡터를 서로 같은 공간에 놓고, 서로 소통할 수 있게 연결(“Align”)해 주는 역할
- 주요 기법 예시
- Cross-Attention: 이미지 쪽 표현이 텍스트 쪽 표현을 “읽어보게” 만든다
- Contrastive Learning: 올바른 이미지–텍스트 쌍은 가깝게, 그 외는 멀어지게 학습
- Projection Layer / Q-Former: 서로 차원이 다른 벡터를 맞춰 주는 간단한 변환기
“언어랑 이미지가 대화할 수 있게 중간다리 역할을 해 주는 모듈”이다
최종 학습(Fine-tuning) 단계
- Multimodal Dataset
- 텍스트+이미지(+음성·비디오) 페어로 이뤄진 대규모 데이터셋을 준비
- Human Feedback
- 사람이 직접 결과를 평가·교정한 레이블을 추가 → 모델이 더 “사람 입맛”에 맞게 배움
- Multimodal & Multitask Learning + Instruction Tuning
- QA, 요약, 생성, 검색 등 여러 과업을 한꺼번에 학습(멀티태스크)
- “이렇게 물어보면 이렇게 대답해!” 같은 지침(instruction)을 넣어 다듬음

“이미지 이해 모델 + 언어 이해 모델을 중간에서 연결해 주고, 멀티모달 데이터와 사람의 피드백으로 다채로운 과업까지 한 번에 배우도록 만드는 전체 파이프라인”을 간략히 그린 그림이다.
- 사전학습(Pretraining): 각각의 modality별 거대한 코퍼스(텍스트·이미지)로 독립 학습
- 정렬(Alignment): 두 임베딩 공간을 이어주는 교차-어텐션, 대조학습(contrastive) 등
- 최종 튜닝(Finetuning):
- 멀티모달·멀티태스크 데이터셋
- 사용자 지침(instruction)·휴먼 피드백을 통한 추가 튜닝
Multimodal Fusion 방법
- 원인(문제) 이미지·오디오·텍스트 같은 서로 다른 데이터가 있을 때, “합치는 타이밍”에 따라 서로 주고받을 수 있는 정보의 양과 질이 극명히 달라진다
- 해결(전략)
- Late Fusion
- 각 모달리티를 완전히 따로 처리 → 마지막 단계에 결과만 합침
- 장점: 모달별로 최적화·디버그 쉬움
- 단점: 두 모달이 깊이 “대화”할 기회가 적어 복합 패턴 포착 어려움
- Early Fusion
- 초기부터 원시 피처를 합쳐서 하나의 모델에 넣음
- 장점: 모달 간 풍부한 상호작용으로 섞인 특징 학습 우수
- 단점: 입력 간 조정 복잡·모델 커지고 연산·메모리 부담 급증
- Late Fusion

그런데 이러면… 너무 복잡해진다! (Cross-Attention 폭발 문제)
- Early Fusion의 핵심인 Cross-Attention(모든 이미지 토큰 ↔ 모든 오디오 토큰이 서로 참조)
- 토큰 수만큼 1:1 대화를 시도하니 → 연산량이 기하급수적으로 늘고, 정말 중요한 정보와 잡음이 뒤섞여 ‘쓸모없는 대화’도 엄청 많아짐
해결책: Bottleneck Fusion
- 핵심 아이디어
- 모달리티끼리만 먼저 대화(Self-Attention)
- 아주 소수의 “허브 토큰”(bottleneck token) 만 서로 오가며 핵심 내용만 전달
- 어떻게 작동하나?
- 이미지 방에서는 이미지 패치끼리, 오디오 방에서는 오디오 패치끼리 먼저 얘기하고, 두 방 사이에는 bottleneck 토큰 몇 명만 들락날락하며 꼭 필요한 정보만 교환
- 효과
- 연산량 대폭↓, 성능은 그대로(혹은 더↑)
실제 구조: Multimodal Bottleneck Transformer
- 입력 준비(비디오→작은 패치 토큰 V₁…Vₙ / 오디오→스펙트로그램 패치 A₁…Aₙ)
- 특수 토큰 추가(CLS: 전체 대표 요약·분류용 / FSN(Fusion bottleneck) B개: 정보 허브)
- Transformer 인코더 (단계①: V끼리, A끼리만 self-attention / 단계②: 오직 FSN ↔ (V, A) 사이에서만 cross-attention)
- 결과 추출 CLS 토큰 출력점수 평균 → 최종 예측
추가 실험: 어떤 Attention 이 좋을까?
- 비교 대상
- Vanilla self-attention: 모달별 self-attention 후 단순 합침
- Vanilla cross-attention: 이미지↔오디오 full 연결
- Bottleneck Fusion: 소수 허브 토큰만 이용한 cross-attention
- 결과: Bottleneck Fusion이 연산은 최소화하면서도 성능은 최상을 기록
Pretrained Vision Language Models(Pretrained VLM)
방대한 양의 “이미지–텍스트 쌍” 데이터로 먼저 학습(pretraining)된 모델을 말한다.
| 구분 | 설명 |
| Pretraining (사전 학습) | 엄청난 양의 텍스트·이미지 페어로 먼저 “얼만큼 연관이 있는가”를 대조 학습으로 배움 |
| Translation (변환) | 이미지→텍스트 캡셔닝, 텍스트→이미지 검색·매칭 같은 역할로 변환해 쓰기 편하게 튜닝 가능 |
| Alignment (정렬) | 텍스트 임베딩과 이미지 임베딩을 같은 의미 공간에 “딱 맞게” 놓아 매칭·검색 정확도↑ |
| Transfer Learning (전이 학습) | 사전 학습된 이 모델을 가져다, 분류·QA·캡션·검색·생성 등 원하는 downstream 과업으로 빠르게 옮겨 붙여 학습할 수 있음 |
주요 모델
- CLIP (2021, OpenAI)
- ALIGN (2021, Google)
- ViLT (2021, Kakao)
- LXMERT (2019, UNC) 등
CLIP(Contrastive Lanuage-Image Pre-training) 이 대체 뭘 하나? Contrastive Pre-training
수백만 장의 이미지와 그 캡션(짧은 문장)을 준비하고 이미지 인코더(ViT)와 텍스트 인코더(Transformer)를 따로 돌려서 “이 이미지-문장 쌍은 맞고, 이 조합은 틀려!”를 반복 학습한 VLM이다. 덕분에 이미지 텍스트간 검색, 분류, 매칭을 별도의 튜닝없이 바로 사용할 수 있게 되었다.
- 캡션에 해당하는 이미지를 골라내거나 이미지를 보고 가장 어울리는 문장을 맞추는 Zero-Shot 능력이 뛰어남
- 실제로 27개 벤치마크에서, 별도 튜닝 없이 ResNet50(CNN) 기반 분류기와 비슷한 수준을 보인다.
CLIP 방식의 대조 학습(Contrastive Loss)뿐 아니라, “이미지→문장”을 실제로 생성해 보는 캡셔닝 손실(Captioning Loss)도 같이 학습 그 결과 검색·분류와 문장 생성 두 마리 토끼를 다 잡는, 진짜 만능 멀티모달 백본이 됩니다.
핵심 요약
- Pretrained VLM: 이미지·텍스트를 대규모 페어로 사전 학습해, 두 모달을 같은 의미 공간에 정렬
- CLIP: 대표적인 contrastive VLM, 튜닝 없이도 분류·검색·매칭에 강함
- CoCa 등 후속: 캡션 생성까지 같이 배우며, 더 풍부한 멀티모달 작업을 지원
멀티모달 모델을 키우기 위해 어떤 데이터셋들이 쓰였을까
LAION (2021) – 웹 크롤링 기반 초대규모 이미지–텍스트 페어
- LAION-400M: 약 4억 쌍
- LAION-2B: 약 23억 쌍
- LAION-5B: 약 58억 쌍
- 특징: 인터넷에서 수집한 이미지와 그 캡션(짤막한 설명)을 페어로 구성 + “Blue Beach Umbrellas, Point of Rocks…” 같은 제목과 비치된 사진, “BMW-M2-…” 같은 예시들이 많음
- 용도: CLIP·Stable Diffusion 같은 대규모 VLM 사전 학습(pretraining)에 필수
SharedGPT4V 등 – GPT-기반 멀티모달 튜닝용 데이터
- COCO-Caption: COCO 이미지에 사람이 쓴 캡션(118K)
- BLIP-LCS: BLIP 모델이 생성한 캡션(558K)
- LLaVa-23K: GPT-4가 COCO 이미지에 붙인 캡션(23K)
- ShareGPT4V: GPT4-Vision이 생성한 Q&A(100K)
- ShareGPT4V-PT: 사람이 다듬은 캡션·Q&A(1.2M)
- ALLaVA, LVIS-Instruct4V 등도 유사한 용도로 활용
- 평균 토큰 길이나 가시성(Visible) 여부 등으로 세부 특성 구분

Common Image–Text Datasets – 벤치마크용 중~소규모 데이터
| 분류 |
대표 데이터셋 | 샘플 수 | 용도 |
| Coarse-grained | CC-3M, CC-12M, SBU, LAION-5B/2B/COCO-LAION, COYO-700M | 수백만~수십억 | 사전 학습(pretraining)용 대규모 이미지–텍스트 페어 |
| Fine-grained | ShareGPT4V-PT, LVIS-Instruct4V, ALLaVA | 수십만~백만 | 튜닝(fine-tuning)용 정교한 캡션·QA 데이터 |
| Video–Text | MSR-VTT | 200K | 비디오 요약, 시각 질문응답 등 동영상 멀티모달 학습 |
| Audio–Text | WavCaps | 24K | 음성 자막 생성, 음성 기반 질문응답 등 음성 멀티모달 학습 |
- Flickr30k, COCO-Captions: 이미지 캡셔닝 성능 점검
- Visual Genome, VQA v2.0, GQA, VizWiz VQA: 이미지 기반 질의응답(Q&A)
- Document VQA, ChartQA, AI2D, TextVQA: 문서·차트·다이어그램·텍스트OCR 전용 QA
Multimodal Datasets – 이미지·텍스트뿐 아니라 차트·코드·수식까지
- ChartQA 차트 이미지 + “PC·콘솔 게임 수익이 최고였던 연도?” 같은 Q&A
- DocVQA 문서 스캔 이미지 + 관련 질문·답
- MathVista 수학 문제(텍스트·수식) + 풀이 답안
- AI2D 다이어그램(그림) + 연관 Q&A
- TextVQA 자연 이미지 속 문자를 읽고 답하는 OCR 기반 Q&A
- AlphaCode GitHub 코드 스니펫 + 코드 콘테스트 데이터로 “프로그래밍 문제 해결” 학습
대규모 사전학습용(Pretraining)에는 웹 크롤링 기반 이미지–텍스트 페어(LAION 등)가 필수 그 위에, GPT-계열 멀티모달 튜닝용으로 “사람·모델이 만든 캡션·Q&A”를 덧붙이고 평가·특정 과업용으로는 차트·다이어그램·문서 등 특화된 소규모 데이터셋을 활용합니다.
이렇게 광범위 → 정제된 튜닝 → 과업별 평가의 3단계로 데이터 파이프라인이 구성되는 것이 요즘 멀티모달 연구의 큰 흐름이고 “큰 그릇”(VLM) 위에, “작은 그릇”들(ChartQA, DocVQA, MathVista 등)을 차곡차곡 쌓아서 특정 분야마다 특화된 멀티모달 AI를 완성하는 흐름이다.
Multimodal Large Language Model(MLLM)
“MLLM”은 흔히 Multimodal Large Language Model 혹은 Vision–Language Model(Generative) 을 가리키는 말로,이미지 + 텍스트를 함께 입력받아, 대형 언어 모델(LLM) 수준의 자연어 응답을 생성하는 모델들을 뜻합니다. 넓은 의미로는 모두 VLM(vision+language 다루는 모델)이고, 구체적으론 “생성(Generative)” 기능이 추가된건 MLLM(Multimodal LLM)이라고 구분합니다.
발전 타임라인
- 2021년 이전: VLM 전성시대
- CLIP (OpenAI), ALIGN (Google): 대조 학습(contrastive) 기반 “이미지↔텍스트 매칭” 모델
- LiT, ALBEF, SLIP 등: 효율성·정렬(alignment) 개선
- 2022년~초기 MLLM 등장
- Flamingo (DeepMind): “few-shot” 멀티모달 대화 가능
- BLIP-2 (Salesforce): Q-Former로 이미지 특징 압축 → LLM에 주입
- CoCa (Google): Contrastive + Captioning 동시 학습
- 2023년~현재: 범용 멀티모달 대화 모델
- LLaVA (Microsoft + …): GPT-4 기반 시각 지침 튜닝
- MiniGPT-4: 가벼운 LLM(Falcon-7B) + ViT + Q-Former
- InstructBLIP: BLIP-2 위에 Instruction Tuning 추가
- GPT-4V, Qwen-V1, 그 외 Meta, Alibaba, Baidu 등 기업별 MLLM 속속 발표
- 2024년 이후: Gemini, Video-LLaVA, LLaMA-Vid, CogVLM 등 차세대 모델 쏟아짐
Contrastive VLM은 CLIP, ALIGN, ALBEF 등 “이 이미지와 이 문장이 짝이다/짝 아니다”를 구분하는 임베딩만 배우는 것이고 Multimodal LLM (MLLM)은 Flamingo, BLIP-2, CoCa, LLaVA, MiniGPT-4, InstructBLIP, GPT-4V 등“이미지를 보고 답을 하거나, 설명·대화를 생성”할 수 있는 진짜 멀티모달 언어 모델이다.
| Representation-only VLM | Generative VLM / MLLM | |
| 목적 | 이미지↔텍스트 매칭·검색·분류 | 이미지+텍스트 입력 → 자유로운 문장 생성·QA·대화 |
| 학습 목표(Objective) | Contrastive Loss (짝 맞추기) | Contrastive + Generative/Instruction Tuning Loss |
| 구조 | Two-tower(이미지 인코더 + 텍스트 인코더) | Vision Encoder → Projection → LLM (Cross-Attention) |
| 호칭 | Contrastive VLM | Multimodal LLM (MLLM) |
핵심 모델별 비교
| 모델 |
기관 | LLM 크기 | 주요 구성 & 특징 |
| Flamingo | DeepMind | 3B, 9B, 80B | Perceiver Resampler + Gated cross-attention → “few-shot” 멀티모달 대화 |
| BLIP-2 | Salesforce | 2.7B | (Vision) Frozen ViT + Q-Former → LLM(Falcon/T5)로 정보 주입 → 효율&확장성 중점 |
| LLaVA | Microsoft & … | 7B & 13B | GPT-4로 생성한 instruction data로 시각 튜닝 → 대화형 멀티모달 과업 특화 |
| MiniGPT-4 | King Abdullah | 13B | “Falcon-7B + ViT/CLIP + Q-Former” 구조, BLIP-2 유사 파이프라인 → 경량화 버전 |
| InstructBLIP | Salesforce | 7B & 13B | BLIP-2 기반, 여기에 Instruction Tuning 알고리즘 추가 → 높은 대화·지시 이행 성능 |
대표적인 MLLM 아케텍쳐
- Vision Transformer: 이미지 패치를 처리해 특징 벡터 뽑기
- Projection Module: 특징 벡터를 LLM 입력 형식(토큰)으로 압축/변환
- Large Language Model:
- 텍스트 프롬프트 + 이미지 토큰을 함께 받아
- Cross-Attention으로 시각 정보 참조
- 자연어 응답(설명·QA·캡션)을 생성
한눈에 보는 요약
- MLLM은 “이미지를 이해 → LLM 수준 대화·생성”을 가능케 하는 멀티모달 대화·생성 모델
- 2021년 VLM(CLIP) 이후, 2022년부터 Flamingo, BLIP-2, CoCa 등으로 발전
- 2023년 이후 LLaVA, MiniGPT-4, InstructBLIP, GPT-4V 등 범용 MLLM이 대중화
- 공통 구조: Vision Encoder → Projection → LLM (Text+Image) → Response
| 특성 |
Flamingo (2022) | BLIP-2 (2023) | InstructBLIP (2023) |
| 개발사 | DeepMind | Salesforce | Salesforce |
| 핵심 아이디어 | Few-shot in-context learning | 1-stage Q-Former + 2nd-stage generative pretraining | BLIP-2 + Instruction Tuning |
| Vision Encoder | NFNet-F6 (frozen) | ViT or other (frozen) | ViT or other (frozen) |
| Query/Projector | Perceiver Resampler | Q-Former | Q-Former |
| Language Model | 대형 LLM (frozen) + Gated XATTN-DENSE 레이어 | 대형 LLM (frozen) + Soft Visual Prompt | 대형 LLM (frozen) + Soft Visual Prompt + Instruction Tokens |
| 학습 대상 모듈 | Resampler + Gated XATTN-DENSE | Q-Former (1st-stage) + Q-Former→LLM Adapters (2nd-stage) | Q-Former + Instruction Adapters |
| 학습 목표(Objectives) | Interleaved few-shot in-context learning | Contrastive Loss+ Captioning Loss+ Generative pretraining | BLIP-2 objectives+ Instruction Understanding Loss |
| 강점 | • 소수 예시로 다양한 시각-언어 과업 수행• 계산·메모리 효율적 | • 극강의 zero-shot 성능• 파라미터 절감(188M) | • 자연어 지시(prompt) 이행력↑• 멀티모달 대화·QA 성능 향상 |
| 주요 과업 | • 멀티모달 대화• VQA, 캡션• OCR·간단 계산 | • VQA, 캡션, 검색(매칭) 전 영역• few-shot 없이도 강력한 zero-shot | • BLIP-2 전 영역• Instruction-driven QA·캡션·대화 |
Multimodal AI/Multimodal Learning이란?
- 서로 다른 형태(텍스트·이미지·음성·비디오 등)의 데이터를 한 모델에서 함께 학습·처리하는 기술
- 서로 보완적 정보를 융합해 이해·생성 능력을 높임
주요 Multimodal Tasks
- 질의응답(Q&A): 이미지·음성 포함된 질문에 답하기
- Text↔Image Retrieval: 텍스트 설명과 맞는 이미지(또는 반대) 찾기
- Text-to-Image Generation: 텍스트 묘사 → 이미지 생성
- Emotion Recognition, Video Summarization, Speech Recognition & Synthesis 등
Multimodal Model 제작 방식
- Pretrained Language & Vision 백본을 준비(예: BERT, ViT)
- Alignment Module(Projection, Q-Former, Cross-Attn)으로 서로 다른 임베딩 정렬
- Instruction Tuning / Human Feedback 등으로 downstream 과업에 특화
Multimodal Fusion 방법(Early vs. Late Fusion 개념)
- Late: 각 모달 독립 처리 → 마지막 결과만 통합
- Early: 입력 단계에서 피처 통합 → 하나의 모델로 처리
Bottleneck Fusion 구조
- 문제: full cross-attention은 토큰 수 제곱만큼 연산 폭발
- 해법:
- 각 모달 self-attention 먼저
- 소수 Bottleneck 토큰만 모달 간 cross-attention에 참여 → 허브처럼 정보 교환
현재 Fusion 구조 분류
- Late, Mid(중간 몇 레이어만), Bottleneck, Bottleneck Mid 등
- “언제”(Early/Late)와 “어떻게”(full vs. bottleneck) 섞을지 선택지 유형화
CLIP 구조(Pretrained VLM)
- Image Encoder(ViT) + Text Encoder(Transformer)
- Contrastive Loss로 수백만-억 쌍 이미지↔텍스트 정렬
- Zero-shot 분류·검색·매칭 뛰어남
Image-Text & Multimodal Datasets
- LAION-5B/2B/400M, COCO-Caption, SBU, CC-12M 등 대규모 페어 → Pretraining
- COCO, Flickr30K, VQA, DocVQA, ChartQA, MathVista 등 소규모 레이블 → Fine-tuning/Evaluation
- Video–Text(MSR-VTT), Audio–Text(AudioCaps, WavCaps) 페어도 활발 수집
VLM 발전사 (특히 MLLM)
- CLIP, ALIGN → Flamingo, BLIP-2, CoCa → MiniGPT-4, LLaVA, GPT-4V, InstructBLIP, Gemini…
- Contrastive → Captioning → Instruction tuning → 범용 멀티모달 LLM으로 진화
Flamingo, BLIP-2, InstructBLIP 사례
- Flamingo: Perceiver Resampler + Gated Cross-Attn → few-shot 멀티모달 대화
- BLIP-2: Q-Former로 빠른 alignment + downstream generative pretraining → 최강 zero-shot
- InstructBLIP: BLIP-2 위에 Instruction Tuning 추가 → 자연어 지시 이행 능력 대폭 상승
How to Multimodal input/output
- “Any-to-Any” 엔진: 텍스트·이미지·음성·차트 등 모든 입력 받고, 텍스트·음성·이미지 등 모든 출력 제공
- RLHF로 텍스트 대화 학습, 별도 STT/TTS 모듈로 음성 지원, 분기(branch)로 이미지 생성 API 호출
Image 생성 분기 예시
- Gemini(준비 중) → 자체 비전-이미지 생성
- ChatGPT(Matplotlib) → 코드 시각화로 임시 대응
- Copilot(DALL·E-3) → “그림 그려줘” 요청 → DALL·E-3 API로 선별 분기
- Mini-Gemini 같은 워크플로우로 “Vision Encoder → Queries → LLM → SDXL” 조합도 가능
'인공지능' 카테고리의 다른 글
| 프롬프트 기초 (2) | 2025.06.04 |
|---|---|
| Multimodal Image 생성기술 (2) | 2025.05.30 |
| Vision 생성모델 - Diffusion (1) | 2025.05.28 |
| Vision 생성 모델 - VAE, GAN (5) | 2025.05.28 |
| CV 분야에서 Transformers (1) | 2025.05.28 |