본문 바로가기
Domain Knowledge/Reinforcement Learning

[10] DQN의 변종들 (Value Based) : DDQN / Dueling DQN / PER

by hleej 2026. 5. 2.

[강화학습] 수업 요약
created: 2026-05-01
last modified: 2026-05-01

지난 포스팅에서, Actor Critic에 대해 알아봤었다.

Actor Critic은 Policy Based 방식인 REINFORCE와, Value Based 방식인 DQN을 결합한 방식이었다.

 

강화학습 알고리즘들의 족보는 매우 복잡하므로,

DQN의 변종들을 설명하기 위해 다시 Value Based 방식으로 되돌아가야 한다.

 

오늘은 아래에 대해서 알아본다.

DQN

DDQN

Dueling DQN

PER

 

1. Deep Q Network (DQN)

[8] 번 포스팅에서 배웠던 DQN에 대해 복습해보자.

DQN은 google Deepmind에서 Atari라는 고전 게임들을 강화학습으로 높은 점수를 얻었다면서 발표한 논문에서 나왔었다.

Q NetworkTarget Q Network, 이렇게 2개의 network로 구성되어 있었다.

 

NFQ의 2가지 문제점을 해결했었는데,

고정된 Target Q Network를 추가함으로써, 고정된 target Q Value를 얻게 되어, target의 방향으로 학습을 했는데 학습함에 따라 target의 분포가 변해버리는 문제를 해결했고,

Experience Replay Buffer를 추가함으로써, IID를 만족하는 sample들을 얻을 수 있게 되었다.

 

아래와 같은 목적함수로 Q Network를 업데이트했다.

Target Q Network에서 뽑은 Q' 중 가장 좋은 Q'와 Q Network에서 뽑은 Q의 차이(MSE)를 줄이겠다는 것이 목적이었다.

$\displaystyle J(\theta) =  \frac{1}{N}\sum_{(s, a, r, s') \in D}\left(R+\gamma \max_{a'} Q(s', a')-Q(s, a)\right)^2$

 

 

1.1.. Double DQN (DDQN)

하지만 DQN에서 greedy하게 가장 좋은 Q'를 구한다는 아이디어는 좋았으나, 너무 최고의 값만 따라가는 탓에 optimal Q Value $Q^*$와는 멀어지는 단점이 발견되었다.

DDQN 논문에 첨부된 그림을 보면, 대충 sampling된 Q들의 기댓값은 optimal Q*에 근사하는데 ($E[Q]=Q*$), greedy하게 max를 뽑으면, sampling하는 Q의 분산 때문에, max된 값들의 평균은 그것보다 더 크게 나온다($\sqrt{\frac{C}{m-1}}$ 만큼)고 써져 있다. 

 

 

Dueling DQN

Priotized Experience Replay (PER)

 

'Domain Knowledge > Reinforcement Learning' 카테고리의 다른 글

[13] SAC  (0) 2026.05.21
[11] TRPO, PPO, GRPO  (0) 2026.05.07
[9] Actor Critic / A2C, A3C  (0) 2026.05.01
[8] DQN (Deep Q Network)  (0) 2026.04.23
[7] Policy gradient : REINFORCE  (0) 2026.04.14