멀티모달 AI와 네이티브 추론 원리

vibe-coding-club.vercel.app

Advanced 1주차에서 에이전트의 내부 구조(ReAct, Function Calling, MCP)를 파헤쳤다면, 2주차는 AI가 세상을 인식하는 방식을 다뤄보려 한다. 텍스트만 이해하던 AI가 이미지, 음성, 영상을 동시에 이해하는 멀티모달(Multimodal) 의 세계다.

멀티모달이란

먼저 용어를 정리하자.

Modality: 정보가 표현되는 방식. 글, 소리, 그림 등이 각각 하나의 modality다.
Multimodal: 여러 종류의 데이터를 동시에 이해하는 AI 방식

기존 AI는 하나의 데이터 형태만 처리했다. 텍스트 모델은 글만 이해하고, 이미지 모델은 사진만 분석한다. 멀티모달 AI는 다르다. 사람처럼 여러 감각 정보를 함께 이해한다.

사진을 보고 설명을 생성
음성을 듣고 내용을 요약
텍스트 + 이미지를 함께 보고 질문에 답변

다루는 데이터 종류는 텍스트, 이미지, 음성, 영상, 센서 데이터 등이다.

멀티모달 AI가 할 수 있는 것

구체적으로 어떤 일이 가능한지 살펴보자.

이미지 설명 자동 생성
음성을 텍스트로 변환하면서 동시에 의미 이해
문서 속 텍스트 + 그림을 함께 분석
사람의 말 + 표정 + 상황을 종합 이해하는 인터랙션

대표 멀티모달 모델

모델	특징
OpenAI GPT-5	텍스트, 이미지, 오디오, 비디오를 하나의 모델로 처리하는 최신 멀티모달 LLM
OpenAI GPT-4o / GPT-4V	시각 입력(이미지)과 텍스트를 동시에 이해하고 응답
Google Gemini 시리즈	텍스트 + 이미지 + 오디오 + 비디오 입력을 자연스럽게 처리하며 모달 섞기 가능
Meta LLaMA 4	텍스트 + 이미지 멀티모달을 지원하는 Meta의 대형 언어 모델

네이티브 멀티모달 추론 원리

여기가 이번 주의 핵심이다. 멀티모달 AI가 내부적으로 어떻게 작동하는지.

핵심 정의

네이티브 멀티모달이란, 이미지/오디오/영상 같은 비정형 데이터를 외부 도구 변환 없이 모델 내부에서 직접 이해하는 구조다. 단순히 “텍스트로 바꿔서 처리”하는 방식이 아니라, 각 모달을 벡터로 인코딩해 LLM과 함께 추론한다.

기본 아이디어

모든 데이터는 결국 벡터(Vector) 로 바뀌고, 모델은 이 벡터들 사이의 관계로 세상을 이해한다.

텍스트 → 토큰 임베딩 벡터
이미지 → 패치(Patch) 단위 비전 임베딩
오디오 → 스펙트로그램 기반 오디오 임베딩

서로 다른 입력이지만, 같은 신경망 추론 공간에서 함께 처리된다.

처리 흐름

1단계

각 데이터 타입을 전용 인코더가 벡터로 변환한다.

이미지 인코더 (Vision Encoder, 예: ViT): 이미지를 작은 패치로 나누고, 각 패치를 벡터로 변환
오디오 인코더: 음성을 스펙트로그램으로 변환하고, 시간-주파수 특징을 벡터화
텍스트 인코더: 토큰 단위 임베딩 생성

이 단계에서 모든 입력은 숫자 시퀀스가 된다.

2단계

각 모달의 벡터 차원은 다르다. 이를 LLM이 이해할 수 있는 동일한 차원 공간으로 변환한다.

원래 데이터	변환 후
이미지 패치	비전 토큰
오디오 조각	오디오 토큰
텍스트 토큰	텍스트 토큰

결국 모두 “토큰 시퀀스” 형태가 된다.

3단계

여기가 네이티브 멀티모달의 핵심이다.

변환된 모든 토큰(텍스트 + 이미지 + 오디오)이 하나의 Transformer 안으로 같이 들어간다. 모델은 토큰의 출처를 구분하지 않고 이렇게 생각한다: “이 토큰들은 서로 어떤 관계일까?”

이미지 토큰 중 특정 영역, 오디오 토큰 중 특정 구간, 텍스트 질문 토큰 — 이들 사이에 어텐션(attention) 을 형성하며 추론한다.

텍스트 토큰이 이미지 토큰을 참고하고, 이미지 토큰이 오디오 토큰과 연결될 수도 있다. 모달 간 연결 관계를 동적으로 학습하며 의미를 형성하는 것이다.

예를 들어, 사용자가 사진을 보여주며 “이 사람이 화난 것 같아?”라고 질문하면:

“화난”이라는 텍스트 토큰이 얼굴 표정이 있는 이미지 토큰에 강한 attention을 형성
모델은 텍스트의 의미와 이미지의 시각적 특징을 연결해서 판단

네이티브 방식이 중요한 이유

예전 방식 (비네이티브):

이미지 → 캡션 생성 → 텍스트로 변환 → LLM 처리
정보 손실 발생. 세밀한 시각 정보가 사라진다

네이티브 멀티모달:

이미지가 텍스트로 “요약”되지 않는다
원본 시각 특징이 벡터 형태로 직접 추론에 참여
더 정밀한 이해, 복잡한 장면 추론이 가능

이 구조에서 가능한 고급 능력

문서 이미지 + 질문 동시 이해
영상 장면 + 대사 + 배경음 종합 해석
의료 영상 + 텍스트 기록 통합 추론
로봇이 카메라 + 마이크 입력을 동시에 이해

실습

이론을 배웠으니 직접 만져보는 시간이다. 4가지 실습을 진행했다.

실습 1

OpenAI Sora는 텍스트 프롬프트로 비디오를 생성하는 도구다. 이미지를 업로드해서 그 이미지를 기반으로 영상을 생성할 수도 있다.

멀티모달의 실체를 가장 직관적으로 체감할 수 있는 도구다. 텍스트(프롬프트)가 영상(비디오)으로 변환되는 과정 자체가 멀티모달이다.

실습 2

Google NotebookLM은 AI 리서치 도구이자 사고 파트너다. 문서를 업로드하면 AI가 분석하고, 질문에 답변하고, 요약해준다.

Studio 기능을 활용하면 업로드한 문서를 기반으로 팟캐스트 형식의 오디오 콘텐츠까지 자동 생성할 수 있다. 텍스트 → 오디오 변환의 멀티모달 활용 사례다.

실습 3

Gemini Storybook은 텍스트 설명을 기반으로 개인화된 일러스트 스토리를 만들어주는 도구다. 원하는 이야기를 설명하면 AI가 텍스트와 이미지를 함께 생성해서 하나의 스토리북으로 완성한다.

텍스트 → 이미지 + 스토리 생성이 동시에 이루어지는, 멀티모달 생성의 대표적인 예다.

실습 4

멀티모달 API를 직접 코드로 호출해보는 실습도 진행했다. 실습 코드 저장소에서 제공된 코드를 실행하며, API를 통해 이미지나 오디오를 입력하고 모델의 응답을 확인하는 과정이다.

2주차를 마치며

멀티모달은 AI가 세상을 인식하는 방식의 근본적인 변화다. 텍스트만 이해하던 AI가 이미지, 음성, 영상을 동시에 이해하게 되면서, 할 수 있는 일의 범위가 비교할 수 없이 넓어졌다.

이번 주에 가장 강하게 남은 건 네이티브 멀티모달의 내부 구조였다. 모든 데이터가 벡터로 변환되어 하나의 Transformer에서 함께 추론된다는 점, 이미지를 텍스트로 요약해 우회하는 게 아니라 원본 시각 특징이 직접 추론에 참여한다는 점. 이 차이가 정밀도와 활용 가능성을 가른다.

1주차의 에이전트가 “행동하는 AI”였다면, 2주차의 멀티모달은 “보고 듣고 이해하는 AI”다. 이 둘이 합쳐지면? 보고 듣고 이해하면서 동시에 행동하는 AI가 된다.

마지막 메모

Modality: 정보가 표현되는 방식 (텍스트, 이미지, 음성, 영상 등)
멀티모달 AI: 여러 종류의 데이터를 동시에 이해하고 처리하는 AI
네이티브 멀티모달: 외부 변환 없이 모델 내부에서 직접 비정형 데이터를 이해하는 구조
처리 흐름: 모달별 인코딩 → 공통 공간 투영 → 단일 Transformer에서 공동 추론
크로스모달 어텐션: 텍스트 토큰이 이미지 토큰을 참고하는 등, 모달 간 관계를 동적으로 학습
비네이티브 vs 네이티브: 텍스트로 요약 후 처리(정보 손실) vs 원본 벡터가 직접 추론 참여(정밀)
실습 도구: Sora(비디오), NotebookLM(문서+오디오), Gemini Storybook(스토리+이미지)