티스토리 뷰

study/ML

머신러닝 기초학습 3 (개정판): 비전공자도 이해하는 머신러닝 핵심 용어 사전

octo54 2025. 10. 28. 11:55

머신러닝 기초학습 3 (개정판): 비전공자도 이해하는 머신러닝 핵심 용어 사전

머신러닝은 수식보다 단어가 더 어렵다는 말, 들어보셨죠?
실제로 “모델은 학습 데이터에 대해 부트스트랩 샘플링을 적용한 후, 피처 서브샘플링을 수행하며 마진 최대화 초평면을 찾는다” 같은 문장은…
비전공자에게 거의 암호처럼 느껴집니다.

이번 글은 그런 단어들을 “직관적으로 해석하는 안내서” 입니다.
전문 용어를 ‘그림으로 떠올릴 수 있을 정도’로 이해시키는 것이 목표예요.

1. 모델(Model)

“데이터 속 규칙을 수학식으로 표현한 것.”

예를 들어, 공부시간과 점수의 관계를
점수 = 20 × 공부시간 + 5 라는 식으로 표현하면
이게 바로 모델입니다.

즉, 입력(X) → 출력(y) 로 이어지는 변환기.
머신러닝은 이 모델을 스스로 찾아내는 기술입니다.

2. 피처(Feature)

“모델이 판단할 때 사용하는 데이터의 속성.”

예를 들어,

집값 예측: 면적, 층수, 위치
스팸 필터: 제목 단어 수, 첨부파일 여부

이 각각이 피처(feature) 입니다.
모델의 ‘눈’과 ‘귀’ 같은 역할을 합니다.

3. 라벨(Label)

“학습의 정답.”

지도학습(Supervised Learning)에서는
입력 X에 대응되는 정답 y가 반드시 존재합니다.

예시 입력(X) 라벨(y)

이메일 분류	제목, 본문 내용	스팸/정상
이미지 분류	픽셀 데이터	고양이/개

라벨이 있어야 모델이 무엇이 맞고 틀린지를 배울 수 있습니다.

4. 파라미터(Parameter)

“모델이 학습을 통해 조정하는 내부 값.”

수학식 y = ax + b 에서

a: 기울기
b: 절편

이 두 값이 바로 파라미터입니다.
머신러닝은 결국 ‘좋은 파라미터’를 찾는 과정입니다.

5. 손실함수(Loss Function)

“모델이 얼마나 틀렸는지를 숫자로 표현하는 함수.”

예측값과 실제 정답의 차이를 계산해
모델이 잘못된 방향으로 가고 있는지 판단합니다.

회귀 문제 → 평균제곱오차(MSE)
분류 문제 → 교차엔트로피(Cross-Entropy)
SVM → 힌지 손실(Hinge Loss)

모델의 목표는 이 손실(loss)을 최소화하는 것입니다.

6. 최적화(Optimization)

“손실이 최소가 되도록 파라미터를 조정하는 과정.”

가장 많이 쓰이는 방법이 바로 경사하강법(Gradient Descent) 입니다.
산을 내려가듯, 손실이 가장 낮은 방향으로 조금씩 이동합니다.

[
\theta_{new} = \theta_{old} - \eta \nabla_\theta L
]

여기서

( \nabla_\theta L ): 손실의 기울기
( \eta ): 학습률(learning rate)

7. 과적합(Overfitting)

“훈련 데이터만 외우고, 새 데이터를 잘 못 맞히는 상태.”

예를 들어,

공부할 때 기출문제만 외운 학생처럼
실제 시험(새 데이터)에 약한 모델입니다.

이를 막기 위해 정규화(Regularization), 드롭아웃, 조기 종료(Early stopping) 등을 사용합니다.

8. 일반화(Generalization)

“새로운 데이터에서도 잘 맞히는 능력.”

머신러닝의 진짜 목표는
‘훈련 데이터 점수’가 아니라, ‘현실 데이터 성능’입니다.
즉, 외운 게 아니라 이해한 모델을 만드는 것.

9. 하이퍼파라미터(Hyperparameter)

“모델이 배우기 전에 사람이 미리 정해야 하는 설정값.”

모델 하이퍼파라미터 예시

k-NN	이웃 수 k
SVM	C, kernel
RandomForest	트리 개수, 최대 깊이
NeuralNet	층 수, 학습률

학습으로 결정되지 않고, 실험으로 찾아야 하는 값입니다.

10. 부트스트랩 샘플링 (Bootstrap Sampling)

“훈련 데이터를 무작위로 복원 추출하여 새로운 학습 데이터를 만드는 방법.”

Random Forest와 같은 앙상블 모델의 핵심 아이디어입니다.

쉽게 말하면:

데이터 100개 중에서
‘중복을 허용하면서’ 100개를 다시 뽑습니다.
어떤 데이터는 여러 번 들어가고, 어떤 건 빠질 수도 있죠.

이렇게 만든 여러 개의 샘플 세트로 여러 모델을 훈련시키면,
각 모델이 조금씩 다른 관점에서 학습하게 됩니다.

그 결과, 예측의 분산이 줄고 안정성(robustness) 이 높아집니다.

11. 피처 서브샘플링 (Feature Subsampling)

“모델이 학습할 때, 모든 피처 대신 일부 피처만 무작위로 사용.”

역시 Random Forest의 핵심 개념입니다.
각 트리가 서로 다른 피처 조합으로 학습하기 때문에,
트리 간의 상관관계(correlation) 가 줄어듭니다.

즉,

부트스트랩 샘플링 → “데이터 다양성 확보”
피처 서브샘플링 → “모델 다양성 확보”

두 가지를 동시에 쓰면 과적합을 줄이면서 성능을 높일 수 있습니다.

12. 마진 최대화 초평면 (Maximum-Margin Hyperplane)

“SVM이 데이터를 분류할 때 찾는 ‘가장 넓은 간격의 경계선’.”

SVM(Support Vector Machine)은 데이터를 두 그룹으로 나누는 초평면(hyperplane) 을 찾습니다.
이 초평면은 데이터 사이의 마진(margin), 즉 경계 여유 공간을 최대화하도록 선택됩니다.

직관적으로:

두 클래스 사이에 선을 그어 구분할 때,
그 선이 가장 양쪽 데이터로부터 멀리 떨어진 위치에 있도록 하는 것이죠.

이렇게 하면

데이터가 약간 섞여도 견고하게 분류
일반화 성능(새 데이터 적응력) 향상

을 얻을 수 있습니다.

즉, “경계를 확실히 두되, 가장 공정하게 그려라”는 철학입니다.

13. 마진(Margin)

“결정 경계와 가장 가까운 데이터 사이의 거리.”

SVM은 이 마진을 최대화하여
‘최대한 확신 있는 결정’을 내리려 합니다.

마진이 크면: 안정적이고 일반화 잘 됨
마진이 작으면: 데이터에 과도하게 민감(과적합)

14. 초평면(Hyperplane)

“고차원 공간에서 데이터를 구분하는 평면.”

2D에서는 ‘선’, 3D에서는 ‘면’,
그 이상에서는 ‘초평면(hyperplane)’이라고 부릅니다.

수식으로는 다음처럼 표현됩니다.

[
w^T x + b = 0
]

이 평면을 기준으로 한쪽은 +1, 다른 쪽은 -1 클래스로 나뉘죠.

15. 앙상블(Ensemble)

“여러 모델의 예측을 모아서 더 정확한 결과를 만드는 기술.”

하나의 모델보다 여러 모델이 협업하면
에러가 서로 상쇄되어 더 안정적인 결과를 냅니다.

방식 설명 대표 알고리즘

배깅(Bagging)	여러 모델을 병렬로 학습 → 평균	Random Forest
부스팅(Boosting)	이전 오차를 보정하며 순차 학습	XGBoost, LightGBM

16. 커널(Kernel)

“데이터를 고차원으로 옮기지 않고도 고차원 계산을 하는 트릭.”

SVM에서 자주 등장하는 개념입니다.
커널은 두 점 (x_1, x_2) 의 내적(similarity) 을 계산하지만,
사실상 더 높은 차원에서의 유사도를 표현합니다.

쉽게 말해, "평면에서는 섞인 데이터를 3D 공간으로 들어올려서 직선으로 나누는" 원리입니다.

17. 정규화(Regularization)

“복잡한 모델에 벌점을 주어 단순화하는 방법.”

방식 의미

L1 정규화	일부 가중치를 0으로 만들어 피처 선택 효과
L2 정규화	전체 가중치 크기를 작게 유지해 과적합 방지

즉, “틀리더라도 덜 복잡하게” 만드는 장치입니다.

18. 베이즈 정리 (Bayes’ Theorem)

“새로운 증거가 들어올 때, 믿음을 업데이트하는 수학.”

[
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
]

예:

A = 스팸메일일 확률
B = "당첨" 단어가 포함됨

B가 관측되었을 때 A의 확률을 갱신합니다.
→ 나이브 베이즈 분류기의 기반.

19. 피처 스케일링 (Feature Scaling)

“값의 단위를 통일시켜 학습 효율을 높이는 전처리.”

방식 식 설명

Min-Max Scaling	(x - min) / (max - min)	0~1 범위로 조정
Standardization	(x - 평균) / 표준편차	평균 0, 분산 1

스케일링은 특히 거리 기반(kNN, SVM, KMeans) 모델에 필수입니다.

20. PCA (주성분 분석)

“데이터의 방향성을 유지하면서 차원을 줄이는 기법.”

데이터를 가장 잘 설명하는 축(주성분)을 찾아
정보를 압축하면서도 본질을 유지합니다.
시각화, 노이즈 제거, 계산 효율 개선에 유용합니다.

🧭 정리

개념 핵심 비유

부트스트랩 샘플링	“데이터를 복사해 여러 번 다시 뽑기”
피처 서브샘플링	“각 모델이 서로 다른 관점으로 본다”
마진 최대화	“가장 공정하게 경계 긋기”
초평면	“2D의 선, 3D의 면을 고차원으로 확장한 경계”

다음 글 예고

👉 머신러닝 기초학습 4: 데이터 전처리와 피처 엔지니어링 — 모델이 ‘이해하기 쉬운 데이터’를 만드는 법

데이터의 품질이 모델 성능을 결정한다는 말,
그걸 진짜로 보여주는 실전편으로 넘어갑니다.

머신러닝,AI기초,데이터사이언스,부트스트랩샘플링,피처서브샘플링,마진최대화,SVM,랜덤포레스트,커널,정규화

'study > ML' 카테고리의 다른 글

머신러닝 기초학습 6: 하이퍼파라미터 튜닝과 모델 최적화 — 모델의 ‘감’을 숫자로 조정하는 기술 (0)	2025.11.03
머신러닝 기초학습 5: 모델 평가와 일반화 — 과적합을 피하고 진짜 실력을 확인하는 법 (0)	2025.10.30
머신러닝 기초학습 4: 데이터 전처리와 피처 엔지니어링 — 모델이 이해할 수 있는 데이터로 바꾸는 기술 (0)	2025.10.29
머신러닝 기초학습 2: 대표 ML 알고리즘—학습과 추론의 ‘방식’까지 이해하기 (0)	2025.10.28
머신러닝 기초학습 1: 데이터가 세상을 이해하는 방식 (0)	2025.10.28

※ 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

글 보관함

TwentyTwentyOne

티스토리 뷰