ํฐ์คํ ๋ฆฌ ๋ทฐ
๐ง Transformer์ ์จ์ ํต์ฌ: ์ ๋ ฅ ์๋ฒ ๋ฉ๊ณผ ์์น ์ธ์ฝ๋ฉ
octo54 2025. 5. 22. 15:15
๐ง Transformer์ ์จ์ ํต์ฌ: ์ ๋ ฅ ์๋ฒ ๋ฉ๊ณผ ์์น ์ธ์ฝ๋ฉ
Transformer ๋ชจ๋ธ์ด ํ
์คํธ๋ฅผ ์ดํดํ๊ณ ์ฒ๋ฆฌํ๋ ๋ฐ ์์ด
์ข
์ข
๊ฐ๊ณผ๋์ง๋ง ๊ฐ์ฅ ์ค์ํ ์ญํ ์ ํ๋ ๊ตฌ์ฑ ์์๊ฐ ์์ต๋๋ค.
๋ฐ๋ก **์
๋ ฅ ์๋ฒ ๋ฉ(Input Embeddings)**๊ณผ **์์น ์ธ์ฝ๋ฉ(Positional Encoding)**์
๋๋ค.
๐งฑ ์ ๋ ฅ ์๋ฒ ๋ฉ (Input Embeddings)
์
๋ ฅ ์๋ฒ ๋ฉ์ ํ
์คํธ์ ๊ฐ ํ ํฐ(๋จ์ด, ๋ถ๋ถ์ด ๋ฑ)์ ๊ณ ์ฐจ์ ๋ฒกํฐ๋ก ๋ณํํ๋ ๊ณผ์ ์
๋๋ค.
์ด ๋ฒกํฐ๋ ๋จ์ํ ์ซ์ ๋ฐฐ์ด์ด ์๋๋ผ, **์๋ฏธ์ ์ธ ๊ณต๊ฐ(semantic space)**์์์ ์์น๋ฅผ ๋ํ๋
๋๋ค.
- ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋จ์ด๋ค์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์๋ ๊ฐ๊น์ด ์์นํจ
- ์ด ๋ฒกํฐ๋ ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ ์ดํดํ๊ณ , ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ํ์ ํ๋ ๋ฐ ํ์์ ์
์:
- “king” - “man” + “woman” ≈ “queen” ๊ฐ์ ์ฐ์ฐ์ด ๊ฐ๋ฅํ ๊ฒ๋ ์ด ๊ตฌ์กฐ ๋๋ถ์ ๋๋ค.
๐ ์์น ์ธ์ฝ๋ฉ (Positional Encoding)
Transformer๋ RNN๊ณผ ๋ฌ๋ฆฌ ์์๋ฅผ ๊ณ ๋ คํ์ง ์๋ ๊ตฌ์กฐ์
๋๋ค.
๊ทธ๋์ “๋๋ ๋๋ฅผ ์ฌ๋ํด”์ “์ฌ๋ํด ๋๋ ๋๋ฅผ”์ ๋๊ฐ์ด ๋ณธ๋ค๋ฉด ๋ฌธ์ ๊ฐ ์๊น๋๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์์น ์ ๋ณด๋ฅผ ๋ฒกํฐ์ ๋ํ๋ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
๐ ์ํ์ ์ ์ (์ ์ ์์น ์ธ์ฝ๋ฉ, sin/cos ๊ธฐ๋ฐ)
PE(pos,2i)=sinโก(pos100002idmodel)PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right) PE(pos,2i+1)=cosโก(pos100002idmodel)PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right)
- pospos: ๋จ์ด์ ์์น
- ii: ์๋ฒ ๋ฉ ์ฐจ์ ์ธ๋ฑ์ค
- dmodeld_{model}: ๋ชจ๋ธ์ ์๋ฒ ๋ฉ ์ฐจ์
์ด sin/cos ํจํด์ ์๋์ ๊ฑฐ๋ฆฌ์ ์ ๋์ ์์น ๋ชจ๋๋ฅผ ๋ถ๋๋ฝ๊ฒ ์ธ์ฝ๋ฉํ ์ ์์ต๋๋ค.
๐ ๋ฐ์ ๋ ์์น ์ธ์ฝ๋ฉ ๊ธฐ๋ฒ
- Learnable Positional Embedding: ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ก ๋์ฒด
- RoPE (Rotary Positional Embedding): ๊ฐ๋ ํ์ ์ ํตํด ์๋์ ์์น ์ ๋ณด ํ์ต
- ALiBi: Attention bias ๋ฐฉ์์ผ๋ก ๊ณ์ฐ ๋น์ฉ ์ ๊ฐ
๐ก ์ ์ ์๊ฐ
๋ง์ ์ฌ๋๋ค์ด Transformer ๋ชจ๋ธ์ attention ๋ฉ์ปค๋์ฆ์ ์ง์คํ์ง๋ง,
์
๋ ฅ ์๋ฒ ๋ฉ๊ณผ ์์น ์ธ์ฝ๋ฉ ์์ด๋ ๋ชจ๋ธ์ด ์๋ฌด๊ฒ๋ ํ ์ ์์ต๋๋ค.
ํนํ ์์น ์ธ์ฝ๋ฉ์ ๋จ์ํ ๊ธฐ์ ์ ์ธ ๋ํ
์ผ์ด ์๋๋ผ,
์์ฐ์ด์์ "๋ฌธ์ฅ์ ํ๋ฆ"์ ์ธ์์ํค๋ ์ด์ ์
๋๋ค.
์์ฆ์ LLM๋ค์ด ๋งค์ฐ ์ปค์ก๊ธฐ ๋๋ฌธ์, RoPE๋ ALiBi์ฒ๋ผ ํจ์จ์ ์ด๊ณ ๋ฒ์ฉ์ฑ ์๋ ๋ฐฉ์์ด ๋ ๊ฐ๊ด๋ฐ๊ณ ์์ต๋๋ค.
ํ์ง๋ง ์๋ฆฌ๋ฅผ ๋ชจ๋ฅด๋ฉด ํ๋๋ ์ด๋ ต๊ณ , ๋๋ฒ๊น
๋ ์ฝ์ง ์๊ธฐ ๋๋ฌธ์ ๊ธฐ๋ณธ ์๋ฆฌ๋ฅผ ๋ฐ๋์ ์ดํดํด๋ ํ์๊ฐ ์์ต๋๋ค.
Transformer, ์
๋ ฅ ์๋ฒ ๋ฉ, ์์น ์ธ์ฝ๋ฉ, Positional Encoding, ์์ฐ์ด ์ฒ๋ฆฌ, ๋ฅ๋ฌ๋,
RoPE, Transformer ๊ตฌ์กฐ, NLP ๊ธฐ์ด, AI ๋ชจ๋ธ ํ์ต
'๊ธ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
โ ๋ฐ์ดํฐ ๋ถ์๊ฐ์ ์ปค๋ฆฌ์ด์ ์ฑ์ฅ ์ ๋ต (8ํธ) (0) | 2025.05.22 |
---|---|
๐ป 2025๋ ์ฃผ๋ชฉํ ๋ฐฑ์๋ ํ๋ ์์ํฌ TOP 5 (0) | 2025.05.22 |
๐ AI ์ธ์ฆ์๋ก ์ฐ๋ด $200,000 ๋ฌ์ฑํ๊ธฐ: 2025๋ ์ต๊ณ ์ ์ ํ (0) | 2025.05.21 |
โ ์ค์ ํ๋ก์ ํธ: ๊ณ ๊ฐ ์ดํ ์์ธก ๋ชจ๋ธ ๋ง๋ค๊ธฐ (7ํธ) (0) | 2025.05.21 |
๐ 2025๋ ์ฃผ๋ชฉํ ํ๋ก ํธ์๋ ํ๋ ์์ํฌ TOP 5 (0) | 2025.05.21 |
- Total
- Today
- Yesterday
- rag
- App Router
- Docker
- NestJS
- SEO ์ต์ ํ
- Python
- fastapi
- nextJS
- AI์ฑ๋ด
- ๊ฐ๋ฐ๋ธ๋ก๊ทธ
- ์น๊ฐ๋ฐ
- REACT
- nodejs
- SEO์ต์ ํ
- llm
- CI/CD
- Webpack
- Next.js
- github
- kotlin
- seo ์ต์ ํ 10๊ฐ
- ํ๋ก ํธ์๋๋ฉด์
- ํ๋ก ํธ์๋
- Prisma
- PostgreSQL
- ํ์ด์ฌ ์๊ณ ๋ฆฌ์ฆ
- gatsbyjs
- Ktor
- ๋ฅ๋ฌ๋
- ๋ฐฑ์๋๊ฐ๋ฐ
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |