티스토리 뷰

반응형

딥러닝 기초학습 10 (완결): GPT·BERT·LLM의 진화 — Transformer는 어떻게 ‘언어를 생성하는 지능’이 되었는가


Transformer 구조를 이해하고 나면
마지막으로 반드시 드는 질문이 하나 있다.

“그래서 GPT랑 BERT는 뭐가 다른데?”
“LLM은 도대체 어디서 갑자기 튀어나온 거야?”

이 글은 그 질문에 대한 끝장 답변이다.

이제 우리는 더 이상
“GPT는 그냥 잘 말하는 AI” 같은 설명으로 만족하지 않는다.

구조 · 학습 방식 · 철학까지 전부 연결해서 이해해보자.


1. Transformer 이후, 모델은 두 갈래로 갈라졌다

Transformer 논문(2017)이 나온 뒤,
모델들은 크게 두 방향으로 진화한다.

① Encoder 중심 → 이해(Understanding)
② Decoder 중심 → 생성(Generation)

이 갈림길에서 탄생한 대표 주자가 바로:

  • BERT → 이해의 끝판왕
  • GPT → 생성의 끝판왕

LLM은 이 GPT 계열이 극단적으로 커진 결과물이다.


2. BERT: “문장을 이해하는 AI”

BERT의 정체를 한 문장으로 말하면 이거다.

“문장을 끝까지 다 읽고,
전체 문맥을 동시에 이해하는 모델”

BERT의 구조

  • Transformer Encoder-only
  • 양방향(Bidirectional) Attention

즉, 한 단어를 볼 때

  • 왼쪽 문맥도 보고
  • 오른쪽 문맥도 본다

BERT의 핵심 학습 방식: MLM

반응형

Masked Language Model

문장 일부를 가린 뒤 맞히는 방식이다.

예:

나는 오늘 [MASK]을 먹었다
→ 정답: 밥

이 학습 방식의 의미는:

  • 다음 단어 예측 ❌
  • 문장 전체의 의미 관계 학습 ⭕

그래서 BERT는:

  • 문장 분류
  • 감정 분석
  • 검색
  • 질의응답(QA)

같은 이해 중심 태스크에 압도적으로 강하다.


3. GPT: “문장을 만들어내는 AI”

GPT의 철학은 BERT와 완전히 다르다.

“문장은 결국 다음 단어의 연속이다.”

GPT의 구조

  • Transformer Decoder-only
  • 단방향(Unidirectional) Attention
  • Masked Self-Attention

즉,

  • 미래 단어 ❌
  • 오직 과거만 보고 다음 토큰을 예측

GPT의 핵심 학습 방식: CLM

Causal Language Model

나는 → 다음은?
나는 오늘 → 다음은?
나는 오늘 밥을 → 다음은?

이 방식은 자연스럽게:

  • 문장 생성
  • 글쓰기
  • 대화
  • 코드 생성

으로 이어진다.

👉 GPT는 처음부터 “생성 전용”으로 설계된 모델이다.


4. BERT vs GPT, 한 방에 비교

구분BERTGPT

구조 Encoder-only Decoder-only
Attention 양방향 단방향
학습 목표 문맥 이해 다음 토큰 예측
잘하는 일 분류, 분석, QA 생성, 대화, 코드
대표 태스크 NLU NLG

그래서 결론은 이거다.

❌ BERT로 글을 쓰려 하면 어색하고
❌ GPT로 문장 분류를 하면 비효율적이다

태생이 다르다.


5. 그럼 LLM은 뭐가 다른가?

LLM(Large Language Model)은
새로운 구조가 아니다.

“GPT를 미친 듯이 크게 만든 결과”

LLM의 본질

  • 구조: Transformer (Decoder-only)
  • 차이점:
    • 파라미터 수 ↑↑↑
    • 데이터 규모 ↑↑↑
    • 학습 전략 고도화

예:

  • GPT-2: 15억 파라미터
  • GPT-3: 1750억
  • GPT-4: 비공개(추정 수천억~)

6. LLM의 진짜 차별점은 ‘사전학습’

LLM의 힘은 사전학습(Pretraining) 에서 나온다.

사전학습이란?

“아무 목적 없이
세상의 모든 텍스트를 읽히는 것”

  • 뉴스
  • 위키
  • 코드
  • 대화

👉 이 과정에서 모델은:

  • 문법
  • 상식
  • 논리
  • 패턴
    암묵적으로 내재화한다.

이게 바로
“프롬프트 몇 줄로 뭐든 되는 이유”다.


7. 미세조정(Fine-tuning)과 RLHF

사전학습만 하면 문제가 생긴다.

  • 말은 잘하는데
  • 헛소리도 잘함

그래서 추가된 단계가 있다.

① Supervised Fine-tuning

  • 사람이 만든 Q&A, 대화 데이터로 조정

② RLHF (Reinforcement Learning from Human Feedback)

  • 사람 평가 → 보상 함수
  • “이 답변이 더 낫다”를 학습

이 과정 덕분에:

  • 공격성 ↓
  • 일관성 ↑
  • 대화 품질 ↑

👉 ChatGPT는 이 단계의 산물이다.


8. 왜 LLM은 ‘범용 지능’처럼 보일까?

LLM은 사실 아무것도 이해하지 않는다.
그럼에도 똑똑해 보이는 이유는 이거다.

“언어는 사고의 압축 포맷이기 때문”

  • 인간의 지식
  • 인간의 논리
  • 인간의 사고 흐름

이 모든 게 언어로 기록되어 있다.

LLM은 언어 패턴을 학습했을 뿐인데,
그 패턴 자체가 이미
사고의 흔적이었던 것.


9. LLM을 한 문장으로 정의하면

“다음 토큰을 예측하는 모델이
충분히 커지고, 충분히 많은 텍스트를 읽으면
사고처럼 보이는 행동이 emergent하게 나타난다.”

이걸 Emergent Ability(창발적 능력) 라고 부른다.

  • 번역
  • 요약
  • 추론
  • 코드 작성
  • 계획 수립

아무도 명시적으로 가르치지 않았지만
어느 순간 갑자기 튀어나온 능력들이다.


10. 이 시리즈의 진짜 목표

이 딥러닝 기초 시리즈의 목표는
프레임워크 사용법이 아니었다.

“AI를 도구가 아니라 구조로 이해하는 것”

이제 당신은:

  • 퍼셉트론 → 역전파 → 최적화
  • CNN → RNN → LSTM
  • Attention → Transformer
  • GPT → LLM

이 모든 흐름이 하나의 진화 서사로 연결되어 보일 것이다.


11. 최종 요약 (이걸 기억하자)

개념본질

딥러닝 비선형 함수의 조합
CNN 공간 구조 학습
RNN/LSTM 순서와 기억
Attention 관계 계산
Transformer 병렬 + 관계 중심
BERT 이해
GPT 생성
LLM 대규모 생성 모델

마지막으로

이제 누가
“LLM은 블랙박스야”
라고 말하면 이렇게 답해도 된다.

“아니요,
구조적으로 보면 굉장히 단순한 반복 블록이고
다만 스케일이 미쳐버린 결과일 뿐이에요.”


 

딥러닝,Transformer,GPT,BERT,LLM,사전학습,RLHF,Attention,언어모델,AI기초

※ 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/04   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
글 보관함
반응형