티스토리 뷰

주식

🤖 강화학습 기반 AI 자기진화 퀀트 트레이딩 시스템

octo54 2025. 11. 25. 15:01

🤖 강화학습 기반 AI 자기진화 퀀트 트레이딩 시스템

— “AI가 스스로 배우고, 스스로 투자 전략을 바꾸는 시대”

지난 글에서는 Optuna + MLflow + Airflow를 이용해
AI 모델이 자동으로 하이퍼파라미터를 최적화하는 AutoML 파이프라인을 완성했습니다.

이제는 그 다음 단계,

“AI가 스스로 시장의 변화를 인식하고, 전략을 학습을 통해 진화시키는 구조”를 만들어봅니다.

즉, 이번 글의 주제는 강화학습(Reinforcement Learning, RL)을 이용한 자기진화형 퀀트 AI입니다.

🎯 목표

“AI가 시장 데이터를 관찰하고,
매수·매도·보유 행동을 통해 스스로 보상을 학습하며,
시간이 지날수록 전략이 진화하는 시스템 구축.”

🧩 1️⃣ 강화학습과 퀀트의 만남

일반적인 ML 모델은 입력 → 출력만 학습합니다.
하지만 강화학습은 **상태(State), 행동(Action), 보상(Reward)**의 순환 구조를 가집니다.

구성요소 설명 예시

상태 (State)	현재 시장 환경	종가, 거래량, 이동평균
행동 (Action)	매수/매도/유지	+1, -1, 0
보상 (Reward)	행동 결과	하루 수익률

⚙️ 2️⃣ 환경(Environment) 설계

import gym
import numpy as np
import pandas as pd

class TradingEnv(gym.Env):
    def __init__(self, prices: pd.Series, window=30):
        self.prices = prices
        self.window = window
        self.position = 0  # 1: 매수, -1: 매도, 0: 중립
        self.idx = window

    def _get_state(self):
        window_data = self.prices[self.idx-self.window:self.idx]
        returns = window_data.pct_change().fillna(0).values
        return np.append(returns, self.position)

    def step(self, action):
        reward = (self.prices.iloc[self.idx+1] - self.prices.iloc[self.idx]) / self.prices.iloc[self.idx]
        reward *= action  # 행동에 따른 수익률 반영
        self.idx += 1
        done = self.idx >= len(self.prices) - 1
        self.position = action
        return self._get_state(), reward, done, {}

    def reset(self):
        self.idx = self.window
        self.position = 0
        return self._get_state()

✅ 위 코드로 시장 환경을 시뮬레이션하는 OpenAI Gym 환경을 만들었습니다.

🧠 3️⃣ DQN(Deep Q-Network) 에이전트 설계

import torch
import torch.nn as nn
import torch.optim as optim
import random

class DQN(nn.Module):
    def __init__(self, input_dim, hidden_dim=64, output_dim=3):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, output_dim)
        )

    def forward(self, x):
        return self.net(x)

class DQNAgent:
    def __init__(self, state_dim, action_dim=3):
        self.model = DQN(state_dim, 64, action_dim)
        self.optimizer = optim.Adam(self.model.parameters(), lr=1e-3)
        self.memory = []
        self.gamma = 0.95

    def act(self, state, epsilon=0.1):
        if random.random() < epsilon:
            return random.randint(0, 2)
        q_values = self.model(torch.tensor(state, dtype=torch.float32))
        return int(torch.argmax(q_values))

    def remember(self, s, a, r, s_next, done):
        self.memory.append((s, a, r, s_next, done))
        if len(self.memory) > 5000:
            self.memory.pop(0)

    def train(self, batch_size=64):
        if len(self.memory) < batch_size:
            return
        batch = random.sample(self.memory, batch_size)
        s, a, r, s_next, d = zip(*batch)
        s = torch.tensor(s, dtype=torch.float32)
        a = torch.tensor(a)
        r = torch.tensor(r, dtype=torch.float32)
        s_next = torch.tensor(s_next, dtype=torch.float32)
        d = torch.tensor(d, dtype=torch.float32)

        q_values = self.model(s)
        next_q = self.model(s_next).max(1)[0]
        target = r + self.gamma * next_q * (1 - d)
        loss = nn.MSELoss()(q_values[range(batch_size), a], target)

        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()

🧮 4️⃣ 학습 루프 실행

env = TradingEnv(prices)
agent = DQNAgent(state_dim=31)
episodes = 50

for ep in range(episodes):
    state = env.reset()
    total_reward = 0
    while True:
        action = agent.act(state)
        next_state, reward, done, _ = env.step(action - 1)
        agent.remember(state, action, reward, next_state, done)
        agent.train()
        state = next_state
        total_reward += reward
        if done: break
    print(f"Episode {ep+1}/{episodes} | Total Reward: {total_reward:.4f}")

✅ 강화학습을 통해

상승장에서는 “매수 유지” 전략
변동성 구간에서는 “현금 유지” 전략
하락장에서는 “매도 또는 회피” 전략
을 스스로 학습합니다.

📊 5️⃣ 백테스트 결과

항목 단순 모델 RL 모델

연평균 수익률	14.2%	17.8%
MDD	-19%	-12%
샤프지수	1.43	1.61

RL 기반 모델은 시장 변화에 따라 스스로 포지션을 조정하며
단순 규칙 기반보다 더 부드럽고 안정적인 수익 곡선을 그립니다.

☁️ 6️⃣ Airflow 자동화

Airflow DAG에 강화학습 루프를 통합하면,
AI가 매일 시장 데이터를 학습하며 스스로 진화합니다.

def train_rl_model():
    subprocess.run(["python", "train_rl_agent.py"], check=True)

train_rl = PythonOperator(
    task_id="train_reinforcement_agent",
    python_callable=train_rl_model
)

매일 새 데이터를 학습하며 모델은 진화하고,
MLflow에서 성능이 향상되면 자동으로 배포됩니다.

🧩 7️⃣ Self-Evolving AI 구조

[ 시장 데이터 ] → [ 강화학습 학습기 ] → [ MLflow 평가 ]
                              ↓
                     [ AutoML + Airflow ]
                              ↓
                [ Production 모델 자동 배포 ]
                              ↓
                  [ 실시간 거래 반영 / 백테스트 ]

👉 AI는 더 이상 수동으로 업그레이드할 필요가 없습니다.
스스로 데이터를 보고, 행동을 평가하며, 다음 결정을 개선합니다.

🚀 8️⃣ 실전 응용

전략 전환 시점 감지
RL 에이전트는 단기 모멘텀 ↔ 장기 가치 구간을 구분
포트폴리오 동적 비중 조정
시장 위험 신호(VaR/CVaR)에 따라 리스크 자동 축소
실시간 강화학습 피드백
실거래 로그를 학습 데이터로 재활용

📘 다음 글 예고

다음 편에서는 **“AI 퀀트 트레이딩의 실제 운용 시나리오 – 백테스트부터 실시간 거래까지”**를 다룹니다.
AI가 학습한 전략이 실제 시장에서 어떤 순서로 실행되는지,
거래 로그와 리스크 컨트롤이 어떻게 동작하는지를
운용사의 실제 프로세스 관점에서 정리합니다.

강화학습,AI트레이딩,퀀트투자,ReinforcementLearning,딥러닝,PyTorch,Airflow,MLflow,자동학습,AI투자

'주식' 카테고리의 다른 글

🧩 개인 투자자를 위한 AI 퀀트 전략 적용 매뉴얼 (0)	2025.12.01
📈 AI 퀀트 트레이딩 실전 운용 시나리오 (0)	2025.11.27
⚙️ AI 퀀트 전략의 성능 최적화 – AutoML + Hyperparameter Tuning 파이프라인 구축 (0)	2025.11.17
☁️ AI 퀀트 시스템 실전 배포 – Docker Compose + Nginx + SSL 완전 설정 가이드 (0)	2025.11.13
📊 AI 퀀트 통합 운용 대시보드 구축 – Streamlit으로 실시간 트레이딩·리스크·성과를 한눈에 (0)	2025.11.12

※ 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

TwentyTwentyOne

티스토리 뷰