helpingstar

Just Learn it

단단한 강화학습 코드 정리, chap2

2022-09-13

ShangtongZhang github

2022-09-13

『텐서플로2와 머신러닝으로 시작하는 자연어 처리』 책을 보고 정리하기 위해 쓴 글이다.

2022-09-02

활성 정책으로부터 상태가치 함수를 추정하는 과정을 서술한다

2022-08-18

n-step TD $G_{t:t+n} \doteq R_{t+1}+\gamma R_{t+2}+ \cdots + \gamma^{n-1}R_{t+n}+\gamma V_{t+n-1}(S_{t+n})$

2022-08-12

볼츠만 머신