티스토리 뷰
딥러닝 기초학습 10 (완결): GPT·BERT·LLM의 진화 — Transformer는 어떻게 ‘언어를 생성하는 지능’이 되었는가
octo54 2025. 12. 26. 18:45딥러닝 기초학습 10 (완결): GPT·BERT·LLM의 진화 — Transformer는 어떻게 ‘언어를 생성하는 지능’이 되었는가
Transformer 구조를 이해하고 나면
마지막으로 반드시 드는 질문이 하나 있다.“그래서 GPT랑 BERT는 뭐가 다른데?”
“LLM은 도대체 어디서 갑자기 튀어나온 거야?”이 글은 그 질문에 대한 끝장 답변이다.
이제 우리는 더 이상
“GPT는 그냥 잘 말하는 AI” 같은 설명으로 만족하지 않는다.구조 · 학습 방식 · 철학까지 전부 연결해서 이해해보자.
1. Transformer 이후, 모델은 두 갈래로 갈라졌다
Transformer 논문(2017)이 나온 뒤,
모델들은 크게 두 방향으로 진화한다.
① Encoder 중심 → 이해(Understanding)
② Decoder 중심 → 생성(Generation)
이 갈림길에서 탄생한 대표 주자가 바로:
- BERT → 이해의 끝판왕
- GPT → 생성의 끝판왕
LLM은 이 GPT 계열이 극단적으로 커진 결과물이다.
2. BERT: “문장을 이해하는 AI”
BERT의 정체를 한 문장으로 말하면 이거다.
“문장을 끝까지 다 읽고,
전체 문맥을 동시에 이해하는 모델”
BERT의 구조
- Transformer Encoder-only
- 양방향(Bidirectional) Attention
즉, 한 단어를 볼 때
- 왼쪽 문맥도 보고
- 오른쪽 문맥도 본다
BERT의 핵심 학습 방식: MLM
Masked Language Model
문장 일부를 가린 뒤 맞히는 방식이다.
예:
나는 오늘 [MASK]을 먹었다
→ 정답: 밥
이 학습 방식의 의미는:
- 다음 단어 예측 ❌
- 문장 전체의 의미 관계 학습 ⭕
그래서 BERT는:
- 문장 분류
- 감정 분석
- 검색
- 질의응답(QA)
같은 이해 중심 태스크에 압도적으로 강하다.
3. GPT: “문장을 만들어내는 AI”
GPT의 철학은 BERT와 완전히 다르다.
“문장은 결국 다음 단어의 연속이다.”
GPT의 구조
- Transformer Decoder-only
- 단방향(Unidirectional) Attention
- Masked Self-Attention
즉,
- 미래 단어 ❌
- 오직 과거만 보고 다음 토큰을 예측
GPT의 핵심 학습 방식: CLM
Causal Language Model
나는 → 다음은?
나는 오늘 → 다음은?
나는 오늘 밥을 → 다음은?
이 방식은 자연스럽게:
- 문장 생성
- 글쓰기
- 대화
- 코드 생성
으로 이어진다.
👉 GPT는 처음부터 “생성 전용”으로 설계된 모델이다.
4. BERT vs GPT, 한 방에 비교
구분BERTGPT
| 구조 | Encoder-only | Decoder-only |
| Attention | 양방향 | 단방향 |
| 학습 목표 | 문맥 이해 | 다음 토큰 예측 |
| 잘하는 일 | 분류, 분석, QA | 생성, 대화, 코드 |
| 대표 태스크 | NLU | NLG |
그래서 결론은 이거다.
❌ BERT로 글을 쓰려 하면 어색하고
❌ GPT로 문장 분류를 하면 비효율적이다태생이 다르다.
5. 그럼 LLM은 뭐가 다른가?
LLM(Large Language Model)은
새로운 구조가 아니다.
“GPT를 미친 듯이 크게 만든 결과”
LLM의 본질
- 구조: Transformer (Decoder-only)
- 차이점:
- 파라미터 수 ↑↑↑
- 데이터 규모 ↑↑↑
- 학습 전략 고도화
예:
- GPT-2: 15억 파라미터
- GPT-3: 1750억
- GPT-4: 비공개(추정 수천억~)
6. LLM의 진짜 차별점은 ‘사전학습’
LLM의 힘은 사전학습(Pretraining) 에서 나온다.
사전학습이란?
“아무 목적 없이
세상의 모든 텍스트를 읽히는 것”
- 뉴스
- 위키
- 책
- 코드
- 대화
👉 이 과정에서 모델은:
- 문법
- 상식
- 논리
- 패턴
을 암묵적으로 내재화한다.
이게 바로
“프롬프트 몇 줄로 뭐든 되는 이유”다.
7. 미세조정(Fine-tuning)과 RLHF
사전학습만 하면 문제가 생긴다.
- 말은 잘하는데
- 헛소리도 잘함
그래서 추가된 단계가 있다.
① Supervised Fine-tuning
- 사람이 만든 Q&A, 대화 데이터로 조정
② RLHF (Reinforcement Learning from Human Feedback)
- 사람 평가 → 보상 함수
- “이 답변이 더 낫다”를 학습
이 과정 덕분에:
- 공격성 ↓
- 일관성 ↑
- 대화 품질 ↑
👉 ChatGPT는 이 단계의 산물이다.
8. 왜 LLM은 ‘범용 지능’처럼 보일까?
LLM은 사실 아무것도 이해하지 않는다.
그럼에도 똑똑해 보이는 이유는 이거다.
“언어는 사고의 압축 포맷이기 때문”
- 인간의 지식
- 인간의 논리
- 인간의 사고 흐름
이 모든 게 언어로 기록되어 있다.
LLM은 언어 패턴을 학습했을 뿐인데,
그 패턴 자체가 이미
사고의 흔적이었던 것.
9. LLM을 한 문장으로 정의하면
“다음 토큰을 예측하는 모델이
충분히 커지고, 충분히 많은 텍스트를 읽으면
사고처럼 보이는 행동이 emergent하게 나타난다.”
이걸 Emergent Ability(창발적 능력) 라고 부른다.
- 번역
- 요약
- 추론
- 코드 작성
- 계획 수립
아무도 명시적으로 가르치지 않았지만
어느 순간 갑자기 튀어나온 능력들이다.
10. 이 시리즈의 진짜 목표
이 딥러닝 기초 시리즈의 목표는
프레임워크 사용법이 아니었다.
“AI를 도구가 아니라 구조로 이해하는 것”
이제 당신은:
- 퍼셉트론 → 역전파 → 최적화
- CNN → RNN → LSTM
- Attention → Transformer
- GPT → LLM
이 모든 흐름이 하나의 진화 서사로 연결되어 보일 것이다.
11. 최종 요약 (이걸 기억하자)
개념본질
| 딥러닝 | 비선형 함수의 조합 |
| CNN | 공간 구조 학습 |
| RNN/LSTM | 순서와 기억 |
| Attention | 관계 계산 |
| Transformer | 병렬 + 관계 중심 |
| BERT | 이해 |
| GPT | 생성 |
| LLM | 대규모 생성 모델 |
마지막으로
이제 누가
“LLM은 블랙박스야”
라고 말하면 이렇게 답해도 된다.
“아니요,
구조적으로 보면 굉장히 단순한 반복 블록이고
다만 스케일이 미쳐버린 결과일 뿐이에요.”
딥러닝,Transformer,GPT,BERT,LLM,사전학습,RLHF,Attention,언어모델,AI기초
'study > ML' 카테고리의 다른 글
| LLM 실전 활용 2: 임베딩과 벡터 데이터베이스 — RAG 성능의 80%는 여기서 결정된다 (0) | 2025.12.31 |
|---|---|
| LLM 실전 활용 1: RAG의 탄생 — “모델을 키우지 말고, 지식을 연결하자” (0) | 2025.12.30 |
| 딥러닝 기초학습 9: Transformer 구조 완전 해부 — Encoder·Decoder·Multi-Head Attention이 왜 이렇게 생겼는가 (0) | 2025.12.22 |
| 딥러닝 기초학습 8: Attention의 등장 — “기억하지 말고, 필요할 때 찾아보자” (0) | 2025.12.16 |
| 딥러닝 기초학습 7: LSTM과 GRU — RNN의 기억력 문제를 해결한 ‘게이트 설계’의 정수 (0) | 2025.12.15 |
- Total
- Today
- Yesterday
- ai철학
- Prisma
- REACT
- Docker
- CI/CD
- DevOps
- Python
- LangChain
- fastapi
- node.js
- 쿠버네티스
- JWT
- flax
- 딥러닝
- Redis
- NestJS
- JAX
- kotlin
- seo 최적화 10개
- nextJS
- 개발블로그
- Express
- llm
- rag
- Next.js
- 백엔드개발
- SEO최적화
- 압박면접
- 웹개발
- PostgreSQL
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
