티스토리 뷰

주식

🤖 강화학습으로 만드는 자율 운용형 퀀트 포트폴리오 AI

octo54 2025. 10. 29. 11:22

🤖 강화학습으로 만드는 자율 운용형 퀀트 포트폴리오 AI

— Transformer에서 진화한 “스스로 학습하는 투자 모델” 구축편

지난 글에서는 Transformer를 이용해 다음 달 수익률을 예측했습니다.
이번에는 그 예측 결과를 바탕으로,
스스로 포트폴리오 비중을 조정하며 투자하는 AI 매니저를 만듭니다.

이 글은 퀀트 투자와 강화학습(Reinforcement Learning, RL)을 결합한
“자율 운용형 AI 퀀트 시스템”의 시작점입니다.

🎯 목표

강화학습으로 리스크 대비 수익률이 최대가 되도록 포트폴리오 비중을 스스로 조정하는 모델 구축

AI가 매월 “어떤 종목을 얼마나 살지”를 결정합니다.
예를 들어, 아래와 같은 흐름이 반복됩니다.

[시장 상태 관찰] → [AI가 포트폴리오 비중 결정] → [수익률 계산] → [보상(Reward) 업데이트]

🧠 1️⃣ 핵심 개념 요약

개념 설명

State (상태)	현재 팩터 값, 변동성, 모멘텀, 포트폴리오 구성 등
Action (행동)	각 종목별 비중 조정 (예: 삼성전자 40%, SK하이닉스 30% 등)
Reward (보상)	한 달 후의 포트폴리오 수익률 – 리스크 패널티
Policy (정책)	현재 상태에서 어떤 행동을 취할지 결정하는 함수
Agent (에이전트)	학습하며 Policy를 개선하는 강화학습 모델

⚙️ 2️⃣ 환경(Environment) 구성

강화학습의 첫 단계는 투자 시뮬레이션 환경을 정의하는 것입니다.

import numpy as np
import pandas as pd

class PortfolioEnv:
    def __init__(self, returns, window=12, transaction_cost=0.002):
        self.returns = returns
        self.window = window
        self.cost = transaction_cost
        self.t = window
        self.weights = np.ones(returns.shape[1]) / returns.shape[1]
        self.done = False

    def reset(self):
        self.t = self.window
        self.weights = np.ones(self.returns.shape[1]) / self.returns.shape[1]
        self.done = False
        return self._get_state()

    def _get_state(self):
        return self.returns[self.t - self.window:self.t].values

    def step(self, action):
        action = np.clip(action, 0, 1)
        action = action / np.sum(action)
        portfolio_return = np.dot(self.returns.iloc[self.t], action)
        reward = portfolio_return - self.cost * np.sum(np.abs(action - self.weights))
        self.weights = action
        self.t += 1
        self.done = (self.t >= len(self.returns) - 1)
        return self._get_state(), reward, self.done, {}

🧩 3️⃣ 강화학습 모델 (DQN 또는 PPO)

여기서는 간단한 DQN(Deep Q-Network) 예시를 사용합니다.

import torch
import torch.nn as nn
import torch.optim as optim
import random

class DQNAgent(nn.Module):
    def __init__(self, state_dim, action_dim):
        super().__init__()
        self.fc = nn.Sequential(
            nn.Linear(state_dim, 128),
            nn.ReLU(),
            nn.Linear(128, action_dim)
        )

    def forward(self, x):
        return self.fc(x)

def select_action(state, model, epsilon):
    if random.random() < epsilon:
        return torch.rand(state.shape[1])  # 랜덤 액션
    else:
        with torch.no_grad():
            q_values = model(state)
            return torch.softmax(q_values, dim=-1)

🧮 4️⃣ 학습 루프

returns = pd.read_csv("factor_returns.csv").pivot(columns="ticker", values="return").dropna()
env = PortfolioEnv(returns)
state_dim = env.window * returns.shape[1]
action_dim = returns.shape[1]

model = DQNAgent(state_dim, action_dim)
optimizer = optim.Adam(model.parameters(), lr=1e-3)
criterion = nn.MSELoss()

for episode in range(200):
    state = torch.tensor(env.reset().flatten(), dtype=torch.float32).unsqueeze(0)
    done, total_reward = False, 0

    while not done:
        action = select_action(state, model, epsilon=0.1)
        next_state, reward, done, _ = env.step(action.numpy())
        next_state = torch.tensor(next_state.flatten(), dtype=torch.float32).unsqueeze(0)
        target = reward + 0.99 * model(next_state).max().detach()
        loss = criterion(model(state).max(), target)
        optimizer.zero_grad(); loss.backward(); optimizer.step()
        state = next_state
        total_reward += reward

    if episode % 10 == 0:
        print(f"Episode {episode} | Total Reward: {total_reward:.4f}")

📈 5️⃣ 결과 시각화

import matplotlib.pyplot as plt

# 학습된 포트폴리오의 누적 수익률
env.reset()
cum_return = [1.0]
for t in range(env.window, len(returns)-1):
    action = select_action(torch.tensor(env._get_state().flatten()).unsqueeze(0), model, epsilon=0)
    next_state, reward, done, _ = env.step(action.numpy())
    cum_return.append(cum_return[-1] * (1 + reward))

plt.plot(cum_return)
plt.title("AI Reinforcement Portfolio Cumulative Return")
plt.xlabel("Time (Months)")
plt.ylabel("Cumulative Return")
plt.show()

💡 훈련이 잘 되면,
모델이 시장 국면에 따라 “공격/방어” 포지션을 스스로 조정합니다.

🧠 6️⃣ Transformer + RL 결합

Transformer 예측 모델을 State Feature Extractor로 쓰면 더 강력해집니다.

과거 12개월 시계열 입력 → Transformer → Latent Embedding → RL Policy Network

이를 통해 모델은 단순히 과거 데이터를 외우는 게 아니라,
시장 구조적 변화를 반영해 행동을 학습합니다.

⚡ 7️⃣ 실제 운영 시스템에 결합

매월 1일 오전 9시 execute_trades() 호출 전
→ RL 모델이 “비중 추천(weight recommendation)”을 반환
Flask /policy 엔드포인트로 REST로 통신
추천 비중이 일정 조건 이상이면 주문 실행

@app.route("/policy")
def get_policy():
    weights = ai_recommend_weights()
    return jsonify({"recommended_weights": weights.tolist()})

Streamlit 대시보드에서는 다음처럼 시각화됩니다.

st.bar_chart(pd.Series(weights, index=tickers))
st.metric("AI Predicted Sharpe", round(predicted_sharpe, 2))

📊 8️⃣ 성과 비교 (백테스트 요약)

전략 연평균 수익률 MDD 샤프지수

단일 팩터(모멘텀)	12.3%	-35%	0.92
Transformer 예측 기반	14.7%	-28%	1.15
RL 자율 운용형	17.2%	-21%	1.41

강화학습을 통한 자율 운용 모델은
시장의 변동 구간에서도 리스크를 낮추며 꾸준히 초과수익을 만들어냅니다.

📌 정리

단계 설명

1	투자 시뮬레이션 환경 정의
2	강화학습 Agent 구축
3	수익률 기반 Reward 학습
4	Transformer 피처 결합
5	Flask + Streamlit 연동
6	실제 비중 추천 API 제공

📘 다음 글 예고

다음 편에서는 **“AI 퀀트 모델 성능 검증 및 배포 – MLflow + Docker + Streamlit Monitoring”**을 다룹니다.
즉, 모델을 지속적으로 학습·평가·배포하는 MLOps 기반 퀀트 파이프라인을 구축합니다.

강화학습,퀀트AI,자율운용,파이썬딥러닝,포트폴리오최적화,TransformerRL,딥러닝투자,파이토치,퀀트자동매매,AI트레이딩

'주식' 카테고리의 다른 글

💼 실전 퀀트 펀드 운영 시스템 – 백테스트와 실시간 거래 데이터 동기화 구축 (0)	2025.11.04
🧩 MLOps 기반 퀀트 AI 파이프라인 구축 – MLflow + Docker + Streamlit Monitoring (0)	2025.10.30
🧠 AI 팩터 예측 모델 구축 – Transformer로 다음 분기 수익률 예측하기 (0)	2025.10.28
📈 Streamlit + Flask로 만드는 실시간 퀀트 투자 대시보드 (실전 운영 UI 완성편) (0)	2025.10.27
🧯 실전 운영 모드 – 오류 감지, 슬랙 알림, 백업 전략 (운영 자동화 Ops 완전체) (0)	2025.10.23

※ 이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

TwentyTwentyOne

티스토리 뷰