티스토리 뷰

study/ML

딥러닝 기초학습 10 (완결): GPT·BERT·LLM의 진화 — Transformer는 어떻게 ‘언어를 생성하는 지능’이 되었는가

octo54 2025. 12. 26. 18:45

딥러닝 기초학습 10 (완결): GPT·BERT·LLM의 진화 — Transformer는 어떻게 ‘언어를 생성하는 지능’이 되었는가

Transformer 구조를 이해하고 나면
마지막으로 반드시 드는 질문이 하나 있다.

“그래서 GPT랑 BERT는 뭐가 다른데?”
“LLM은 도대체 어디서 갑자기 튀어나온 거야?”

이 글은 그 질문에 대한 끝장 답변이다.

이제 우리는 더 이상
“GPT는 그냥 잘 말하는 AI” 같은 설명으로 만족하지 않는다.

구조 · 학습 방식 · 철학까지 전부 연결해서 이해해보자.

1. Transformer 이후, 모델은 두 갈래로 갈라졌다

Transformer 논문(2017)이 나온 뒤,
모델들은 크게 두 방향으로 진화한다.

① Encoder 중심 → 이해(Understanding)
② Decoder 중심 → 생성(Generation)

이 갈림길에서 탄생한 대표 주자가 바로:

BERT → 이해의 끝판왕
GPT → 생성의 끝판왕

LLM은 이 GPT 계열이 극단적으로 커진 결과물이다.

2. BERT: “문장을 이해하는 AI”

BERT의 정체를 한 문장으로 말하면 이거다.

“문장을 끝까지 다 읽고,
전체 문맥을 동시에 이해하는 모델”

BERT의 구조

Transformer Encoder-only
양방향(Bidirectional) Attention

즉, 한 단어를 볼 때

왼쪽 문맥도 보고
오른쪽 문맥도 본다

BERT의 핵심 학습 방식: MLM

Masked Language Model

문장 일부를 가린 뒤 맞히는 방식이다.

예:

나는 오늘 [MASK]을 먹었다
→ 정답: 밥

이 학습 방식의 의미는:

다음 단어 예측 ❌
문장 전체의 의미 관계 학습 ⭕

그래서 BERT는:

문장 분류
감정 분석
검색
질의응답(QA)

같은 이해 중심 태스크에 압도적으로 강하다.

3. GPT: “문장을 만들어내는 AI”

GPT의 철학은 BERT와 완전히 다르다.

“문장은 결국 다음 단어의 연속이다.”

GPT의 구조

Transformer Decoder-only
단방향(Unidirectional) Attention
Masked Self-Attention

즉,

미래 단어 ❌
오직 과거만 보고 다음 토큰을 예측

GPT의 핵심 학습 방식: CLM

Causal Language Model

나는 → 다음은?
나는 오늘 → 다음은?
나는 오늘 밥을 → 다음은?

이 방식은 자연스럽게:

문장 생성
글쓰기
대화
코드 생성

으로 이어진다.

👉 GPT는 처음부터 “생성 전용”으로 설계된 모델이다.

4. BERT vs GPT, 한 방에 비교

구분BERTGPT

구조	Encoder-only	Decoder-only
Attention	양방향	단방향
학습 목표	문맥 이해	다음 토큰 예측
잘하는 일	분류, 분석, QA	생성, 대화, 코드
대표 태스크	NLU	NLG

그래서 결론은 이거다.

❌ BERT로 글을 쓰려 하면 어색하고
❌ GPT로 문장 분류를 하면 비효율적이다

태생이 다르다.

5. 그럼 LLM은 뭐가 다른가?

LLM(Large Language Model)은
새로운 구조가 아니다.

“GPT를 미친 듯이 크게 만든 결과”

LLM의 본질

구조: Transformer (Decoder-only)
차이점:
- 파라미터 수 ↑↑↑
- 데이터 규모 ↑↑↑
- 학습 전략 고도화

예:

GPT-2: 15억 파라미터
GPT-3: 1750억
GPT-4: 비공개(추정 수천억~)

6. LLM의 진짜 차별점은 ‘사전학습’

LLM의 힘은 사전학습(Pretraining) 에서 나온다.

사전학습이란?

“아무 목적 없이
세상의 모든 텍스트를 읽히는 것”

뉴스
위키
책
코드
대화

👉 이 과정에서 모델은:

문법
상식
논리
패턴
을 암묵적으로 내재화한다.

이게 바로
“프롬프트 몇 줄로 뭐든 되는 이유”다.

7. 미세조정(Fine-tuning)과 RLHF

사전학습만 하면 문제가 생긴다.

말은 잘하는데
헛소리도 잘함

그래서 추가된 단계가 있다.

① Supervised Fine-tuning

사람이 만든 Q&A, 대화 데이터로 조정

② RLHF (Reinforcement Learning from Human Feedback)

사람 평가 → 보상 함수
“이 답변이 더 낫다”를 학습

이 과정 덕분에:

공격성 ↓
일관성 ↑
대화 품질 ↑

👉 ChatGPT는 이 단계의 산물이다.

8. 왜 LLM은 ‘범용 지능’처럼 보일까?

LLM은 사실 아무것도 이해하지 않는다.
그럼에도 똑똑해 보이는 이유는 이거다.

“언어는 사고의 압축 포맷이기 때문”

인간의 지식
인간의 논리
인간의 사고 흐름

이 모든 게 언어로 기록되어 있다.

LLM은 언어 패턴을 학습했을 뿐인데,
그 패턴 자체가 이미
사고의 흔적이었던 것.

9. LLM을 한 문장으로 정의하면

“다음 토큰을 예측하는 모델이
충분히 커지고, 충분히 많은 텍스트를 읽으면
사고처럼 보이는 행동이 emergent하게 나타난다.”

이걸 Emergent Ability(창발적 능력) 라고 부른다.

번역
요약
추론
코드 작성
계획 수립

아무도 명시적으로 가르치지 않았지만
어느 순간 갑자기 튀어나온 능력들이다.

10. 이 시리즈의 진짜 목표

이 딥러닝 기초 시리즈의 목표는
프레임워크 사용법이 아니었다.

“AI를 도구가 아니라 구조로 이해하는 것”

이제 당신은:

퍼셉트론 → 역전파 → 최적화
CNN → RNN → LSTM
Attention → Transformer
GPT → LLM

이 모든 흐름이 하나의 진화 서사로 연결되어 보일 것이다.

11. 최종 요약 (이걸 기억하자)

개념본질

딥러닝	비선형 함수의 조합
CNN	공간 구조 학습
RNN/LSTM	순서와 기억
Attention	관계 계산
Transformer	병렬 + 관계 중심
BERT	이해
GPT	생성
LLM	대규모 생성 모델

마지막으로

이제 누가
“LLM은 블랙박스야”
라고 말하면 이렇게 답해도 된다.

“아니요,
구조적으로 보면 굉장히 단순한 반복 블록이고
다만 스케일이 미쳐버린 결과일 뿐이에요.”

딥러닝,Transformer,GPT,BERT,LLM,사전학습,RLHF,Attention,언어모델,AI기초

'study > ML' 카테고리의 다른 글

LLM 실전 활용 2: 임베딩과 벡터 데이터베이스 — RAG 성능의 80%는 여기서 결정된다 (0)	2025.12.31
LLM 실전 활용 1: RAG의 탄생 — “모델을 키우지 말고, 지식을 연결하자” (0)	2025.12.30
딥러닝 기초학습 9: Transformer 구조 완전 해부 — Encoder·Decoder·Multi-Head Attention이 왜 이렇게 생겼는가 (0)	2025.12.22
딥러닝 기초학습 8: Attention의 등장 — “기억하지 말고, 필요할 때 찾아보자” (0)	2025.12.16
딥러닝 기초학습 7: LSTM과 GRU — RNN의 기억력 문제를 해결한 ‘게이트 설계’의 정수 (0)	2025.12.15

※ 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

글 보관함

TwentyTwentyOne

티스토리 뷰