단단한 강화학습 코드 정리, chap4
ShangtongZhang github
ShangtongZhang github
Target Networks
DQN은 $Q$함수를 근사하는 가치 기반 시간차(value-based temporal difference (TD)) 알고리즘이다. 학습된 $Q$ 함수를 이용하여 행동을 선택한다. DQN은 이산적 행동 공간을 갖는 환경에만 적용할 수 있다. SARSA와 달리 최적 $Q$ 함수를 학습...
단단한 심층 강화학습을 보고 아래의 두 코드를 보았다.
[figure 2.3]