아미(아름다운미소)

강화학습기법 정책 경사(policy gradient) 본문

AI/TensorFlow

강화학습기법 정책 경사(policy gradient)

유키공 2019. 3. 9. 14:06

강화학습기법 정책 경사(policy gradient)(머신러닝, 딥러닝)

정책 경사는 어떤 행동이 현재 상태에서 가장 좋을지를 확률적으로 판단합니다.

Q 러닝과는 다르게 기대 손익을 예측하는 것이 아니라 단순히 현 상황에서 어떤 행동이 더 좋은지를 판단하는 것입니다

'AI > TensorFlow' 카테고리의 다른 글

심층신경망(Deep Neural Network)  (0) 2019.03.17
Epoch이란?  (0) 2019.03.16
강화학습기법 Q 러닝  (0) 2019.03.08
텐서플로우 텐서(Tensor)란?  (0) 2019.03.06
딥러닝 라이브러리 Matlab  (0) 2019.03.03
Comments