ํ‹ฐ์Šคํ† ๋ฆฌ ๋ทฐ

๋ฐ˜์‘ํ˜•

 

๐Ÿง  Transformer์˜ ์ˆจ์€ ํ•ต์‹ฌ: ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ๊ณผ ์œ„์น˜ ์ธ์ฝ”๋”ฉ

Transformer ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์žˆ์–ด
์ข…์ข… ๊ฐ„๊ณผ๋˜์ง€๋งŒ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š” ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๋ฐ”๋กœ **์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ(Input Embeddings)**๊ณผ **์œ„์น˜ ์ธ์ฝ”๋”ฉ(Positional Encoding)**์ž…๋‹ˆ๋‹ค.


๐Ÿงฑ ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ (Input Embeddings)

์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์€ ํ…์ŠคํŠธ์˜ ๊ฐ ํ† ํฐ(๋‹จ์–ด, ๋ถ€๋ถ„์–ด ๋“ฑ)์„ ๊ณ ์ฐจ์› ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
์ด ๋ฒกํ„ฐ๋Š” ๋‹จ์ˆœํ•œ ์ˆซ์ž ๋ฐฐ์—ด์ด ์•„๋‹ˆ๋ผ, **์˜๋ฏธ์ ์ธ ๊ณต๊ฐ„(semantic space)**์—์„œ์˜ ์œ„์น˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

  • ๋น„์Šทํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋‹จ์–ด๋“ค์€ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์—์„œ๋„ ๊ฐ€๊นŒ์ด ์œ„์น˜ํ•จ
  • ์ด ๋ฒกํ„ฐ๋Š” ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๊ณ , ๋‹จ์–ด ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ž„

์˜ˆ:

  • “king” - “man” + “woman” ≈ “queen” ๊ฐ™์€ ์—ฐ์‚ฐ์ด ๊ฐ€๋Šฅํ•œ ๊ฒƒ๋„ ์ด ๊ตฌ์กฐ ๋•๋ถ„์ž…๋‹ˆ๋‹ค.

๐Ÿ“ ์œ„์น˜ ์ธ์ฝ”๋”ฉ (Positional Encoding)

Transformer๋Š” RNN๊ณผ ๋‹ฌ๋ฆฌ ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.
๊ทธ๋ž˜์„œ “๋‚˜๋Š” ๋„ˆ๋ฅผ ์‚ฌ๋ž‘ํ•ด”์™€ “์‚ฌ๋ž‘ํ•ด ๋‚˜๋Š” ๋„ˆ๋ฅผ”์„ ๋˜‘๊ฐ™์ด ๋ณธ๋‹ค๋ฉด ๋ฌธ์ œ๊ฐ€ ์ƒ๊น๋‹ˆ๋‹ค.
์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์œ„์น˜ ์ •๋ณด๋ฅผ ๋ฒกํ„ฐ์— ๋”ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“ ์ˆ˜ํ•™์  ์ •์˜ (์ •์  ์œ„์น˜ ์ธ์ฝ”๋”ฉ, sin/cos ๊ธฐ๋ฐ˜)

PE(pos,2i)=sinโก(pos100002idmodel)PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right) PE(pos,2i+1)=cosโก(pos100002idmodel)PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right)

  • pospos: ๋‹จ์–ด์˜ ์œ„์น˜
  • ii: ์ž„๋ฒ ๋”ฉ ์ฐจ์› ์ธ๋ฑ์Šค
  • dmodeld_{model}: ๋ชจ๋ธ์˜ ์ž„๋ฒ ๋”ฉ ์ฐจ์›

์ด sin/cos ํŒจํ„ด์€ ์ƒ๋Œ€์  ๊ฑฐ๋ฆฌ์™€ ์ ˆ๋Œ€์  ์œ„์น˜ ๋ชจ๋‘๋ฅผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์ธ์ฝ”๋”ฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


๐ŸŒ€ ๋ฐœ์ „๋œ ์œ„์น˜ ์ธ์ฝ”๋”ฉ ๊ธฐ๋ฒ•

  • Learnable Positional Embedding: ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋Œ€์ฒด
  • RoPE (Rotary Positional Embedding): ๊ฐ๋„ ํšŒ์ „์„ ํ†ตํ•ด ์ƒ๋Œ€์  ์œ„์น˜ ์ •๋ณด ํ•™์Šต
  • ALiBi: Attention bias ๋ฐฉ์‹์œผ๋กœ ๊ณ„์‚ฐ ๋น„์šฉ ์ ˆ๊ฐ

๐Ÿ’ก ์ €์˜ ์ƒ๊ฐ

๋ฐ˜์‘ํ˜•

๋งŽ์€ ์‚ฌ๋žŒ๋“ค์ด Transformer ๋ชจ๋ธ์˜ attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ์ง‘์ค‘ํ•˜์ง€๋งŒ,
์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ๊ณผ ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์—†์ด๋Š” ๋ชจ๋ธ์ด ์•„๋ฌด๊ฒƒ๋„ ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์€ ๋‹จ์ˆœํžˆ ๊ธฐ์ˆ ์ ์ธ ๋””ํ…Œ์ผ์ด ์•„๋‹ˆ๋ผ,
์ž์—ฐ์–ด์—์„œ "๋ฌธ์žฅ์˜ ํ๋ฆ„"์„ ์ธ์‹์‹œํ‚ค๋Š” ์—ด์‡ ์ž…๋‹ˆ๋‹ค.

์š”์ฆ˜์€ LLM๋“ค์ด ๋งค์šฐ ์ปค์กŒ๊ธฐ ๋•Œ๋ฌธ์—, RoPE๋‚˜ ALiBi์ฒ˜๋Ÿผ ํšจ์œจ์ ์ด๊ณ  ๋ฒ”์šฉ์„ฑ ์žˆ๋Š” ๋ฐฉ์‹์ด ๋” ๊ฐ๊ด‘๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
ํ•˜์ง€๋งŒ ์›๋ฆฌ๋ฅผ ๋ชจ๋ฅด๋ฉด ํŠœ๋‹๋„ ์–ด๋ ต๊ณ , ๋””๋ฒ„๊น…๋„ ์‰ฝ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ๋ณธ ์›๋ฆฌ๋ฅผ ๋ฐ˜๋“œ์‹œ ์ดํ•ดํ•ด๋‘˜ ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.


 

Transformer, ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ, ์œ„์น˜ ์ธ์ฝ”๋”ฉ, Positional Encoding, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ, ๋”ฅ๋Ÿฌ๋‹,
RoPE, Transformer ๊ตฌ์กฐ, NLP ๊ธฐ์ดˆ, AI ๋ชจ๋ธ ํ•™์Šต


 

โ€ป ์ด ํฌ์ŠคํŒ…์€ ์ฟ ํŒก ํŒŒํŠธ๋„ˆ์Šค ํ™œ๋™์˜ ์ผํ™˜์œผ๋กœ, ์ด์— ๋”ฐ๋ฅธ ์ผ์ •์•ก์˜ ์ˆ˜์ˆ˜๋ฃŒ๋ฅผ ์ œ๊ณต๋ฐ›์Šต๋‹ˆ๋‹ค.
๊ณต์ง€์‚ฌํ•ญ
์ตœ๊ทผ์— ์˜ฌ๋ผ์˜จ ๊ธ€
์ตœ๊ทผ์— ๋‹ฌ๋ฆฐ ๋Œ“๊ธ€
Total
Today
Yesterday
๋งํฌ
ยซ   2025/05   ยป
์ผ ์›” ํ™” ์ˆ˜ ๋ชฉ ๊ธˆ ํ† 
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
๊ธ€ ๋ณด๊ด€ํ•จ
๋ฐ˜์‘ํ˜•