최근 포스트

강화학습에서 stationary와 deterministic

스터디 중 stationary 관련하여 설명하였다, 그런데 설명 후 그것은 deterministic이라는 지적을 받았다. 생각해보니 그 두개를 혼재하며 사용하고 있었다는 것을 느껴 관련하여 정리하기 위하여 이 글을 쓴다.

자연어 처리 개요

『텐서플로2와 머신러닝으로 시작하는 자연어 처리』 책을 보고 정리하기 위해 쓴 글이다.

강화학습 공식 정리

n-step TD $G_{t:t+n} \doteq R_{t+1}+\gamma R_{t+2}+ \cdots + \gamma^{n-1}R_{t+n}+\gamma V_{t+n-1}(S_{t+n})$