melius
[RL] Summary 01 본문
Ch.1 Introduction
1. 강화학습의 정의
강화학습(Reinforcement learning)이란 행위자(Agent)가 환경(Environment)과의 상호작용(Interaction)을 통해서, 환경의 상태(State)에 따른 최대 보상(Reward)을 받기 위한 행동방식(Policy)을 배우는 것이다. 이를 위해 행위자(Agent)는 환경의 상태(State)를 감지할수 있어야하고, 환경에 영향을 주는 행동(Action)를 할수 있어야 한다. 그리고 궁극적으로 행위자는 목표(원하는 환경의 상태)가 있어야 한다.
2. 강화학습의 특징
- 시행착오를 통한 검색(Trial-and-error search)
- 지연된 보상(Delayed reward)
3. 강화학습의 구성요소
정책, 보상, 가치 그리고 선택적으로 환경모델로 구성된다. 정책(Policy)은 환경상태에 따른 행위자의 행동방식을, 보상(Reward)은 행위자의 행동에 따라 환경이 주는 즉각적인 대가를 말한다. 가치(Value)는 현재상태(와 행동)부터 예상되는 누적보상(보상의 총합)을 뜻하며, 상태가치함수(State-value function)은 현재상태를 입력받아 예상되는 누적보상을 출력하는 함수이며, 가치추정의 목적은 최대보상을 얻기위한 행동을 찾기 위함이다. 마지막으로 환경모델(Model of the environment)은 환경의 반응을 흉내내는 모형이다. 환경모델이 있으면 동적계획법(Dynamic programming)을 적용할 수 있다.
Comments