Tag

Woodoku는 특정 게임의 이름입니다. 좋은 이름이 떠오르지 않아 환경 또한 Woodoku로 이름지었습니다. 비슷한 게임이 여럿 있는 것으로 알고있지만 어떤 게임이 원조인지는 모릅니다. Woodoku 이름 관련하여 문제가 있을 경우 왼쪽 프로필의 이메일로 연락 주시길 바랍니다.

wandb 사용시 주의할 점

Published: 2023-06-03 Updated: 2023-06-03

1. 한 메트릭의 스칼라는 100K 이하여야 한다.

2048 게임 강화학습 도전기

Published: 2023-05-19 Updated: 2024-05-14

2048 게임을 정복하기 위해 gym-game2048 강화학습 환경을 만들고 그것을 정복하기 위해 시도한 시행착오를 적어놓은 일지이다.

단단한 강화학습 코드 정리, chap10

Published: 2023-05-14 Updated: 2023-06-21

ShangtongZhang github

단단한 강화학습 코드 정리, chap5

Published: 2023-05-10 Updated: 2023-05-13

ShangtongZhang github

단단한 강화학습 코드 정리, chap12

Published: 2023-05-03 Updated: 2023-05-09

ShangtongZhang github

단단한 강화학습 코드 정리, chap7

Published: 2023-04-22 Updated: 2023-05-09

ShangtongZhang github

단단한 강화학습 코드 정리, chap9

Published: 2023-04-02 Updated: 2023-05-09

ShangtongZhang github

강화학습 문답

Published: 2023-01-19 Updated: 2023-05-12

유용하다 생각했던 강화학습 관련 Q&A를 정리하는 글이다. 답변자의 신뢰도는 고려하지 않으니 참고할 때 유의하기 바란다.

Prioritized Experience Replay

Published: 2023-01-18 Updated: 2023-01-18

Prioritized Experience Replay, Schaul et al, 2015. Algorithm: Prioritized Experience Replay (PER).

Dueling DQN

Published: 2023-01-14 Updated: 2023-01-14

Dueling Network Architectures for Deep Reinforcement Learning, Wang et al, 2015. Algorithm: Dueling DQN.

gym Wrappers 정리

Published: 2023-01-08 Updated: 2023-10-02

gym이 gymnasium으로 바뀌었으나 서술의 편의를 위하여 gym으로 서술하겠다.

단단한 강화학습 코드 정리, chap6

Published: 2022-11-22 Updated: 2023-04-22

ShangtongZhang github

강화학습의 환경 요약

Published: 2022-11-16 Updated: 2022-11-16

강화학습 논문들에서 검증수단으로 활용되는 환경들에 대해서 설명한다. 게임의 경우 공략법보다는 간단한 특징에 주목한다.

강화학습 코드 오류 모음

Published: 2022-10-30 Updated: 2022-10-30

1.

강화학습 코드/환경 구현시 팁

Published: 2022-10-25 Updated: 2023-01-12

강화학습 알고리즘/논문 구현시 겪었던 고충들을 늘어놓고 해결할 때마다 업데이트 하기 위한 글이다. 지속적으로 업데이트 할 예정이다.

강화학습 강의 모음

Published: 2022-10-22 Updated: 2023-12-02

외국 대학 CS 285, UC Berkeley CS 234, Stanford CS 6789, Cornell

gym(gymnasium) 환경 구성시 고려할 점

Published: 2022-10-13 Updated: 2024-04-16

해당 포스트는 아래 글로 새로 업데이트 되었습니다. 삭제하기 아까워 남깁니다.

단단한 강화학습 코드 정리, chap4

Published: 2022-10-03 Updated: 2022-10-03

ShangtongZhang github

향상된 DQN

Published: 2022-10-01 Updated: 2022-10-10

Target Networks

DQN, 심층 Q 네트워크

Published: 2022-09-27 Updated: 2022-10-21

DQN은 $Q$함수를 근사하는 가치 기반 시간차(value-based temporal difference (TD)) 알고리즘이다. 학습된 $Q$ 함수를 이용하여 행동을 선택한다. DQN은 이산적 행동 공간을 갖는 환경에만 적용할 수 있다. SARSA와 달리 최적 $Q$ 함수를 학습...

긍정적 초기값과 UCB에서 Spike에 관한 고찰

Published: 2022-09-24 Updated: 2022-09-27

[figure 2.3]

REINFORCE

Published: 2022-09-21 Updated: 2022-09-24

좋은 결과를 초래한 행동이 더 높은 확률로 선택되도록 에이전트를 학습시켜야 한다. 행동 확률이 정책 경사(policy gradient)를 따라 변하기 때문에 REINFORCE는 정책 경사 알고리즘으로 알려져 있다.

강화학습에서 stationary와 deterministic

Published: 2022-09-19 Updated: 2022-10-07

스터디 중 stationary 관련하여 설명하였다, 그런데 설명 후 그것은 deterministic이라는 지적을 받았다. 생각해보니 그 두개를 혼재하며 사용하고 있었다는 것을 느껴 관련하여 정리하기 위하여 이 글을 쓴다.

단단한 강화학습 코드 정리, chap2

Published: 2022-09-13 Updated: 2022-09-22

ShangtongZhang github

[ch09] 근사를 이용한 활성 정책 예측

Published: 2022-09-02 Updated: 2022-09-15

활성 정책으로부터 상태가치 함수를 추정하는 과정을 서술한다

강화학습 공식 정리

Published: 2022-08-18 Updated: 2022-08-18

n-step TD $G_{t:t+n} \doteq R_{t+1}+\gamma R_{t+2}+ \cdots + \gamma^{n-1}R_{t+n}+\gamma V_{t+n-1}(S_{t+n})$

RL

python

Sutton

단단한 강화학습

cpp

c++

android

list

new

delete

sql

gym

PPO

DQN

gymnasium

algorithm

RL Paper Review

Android

hilt

upbit

confusion matrix

f1 score

f beta score

pr-curve