728x90

1. Non-associative Setting (비연합적 설정)

가장 단순한 형태의 강화학습(RL).
Environment에서 상태(State)의 변화가 없음.

대표적으로 Multi-armed Bandit (MAB) 문제가 여기에 해당.

상태 ($S$):
- 단일 state($|S|=1$)만 존재.
- 어떤 action을 해도 state가 변하지 않음.
상태 전이(transition) 확률 ($P$):
- state가 하나뿐이므로 다음 state로 전이될 확률이 항상 1: $P(s|s, a) = 1$).
정책 ($\pi$):
- agent는 state를 고려할 필요 없음
- 단순히 어떤 action($a$)이 가장 좋은지만 결정하면 충분
학습의 핵심:
- 특정 상황(=state)과 action을 연결(Associate)할 필요가 없음.
- 오직 보상을 극대화하는 *단 하나의 최적 action *을 찾는 것이 목표.

2. Associative Setting (연합적 설정)

흔히 말하는 Full Reinforcement Learning 에 해당.

State가 여러 개이고 행동에 따라 state가 변하는 환경.

상태 ($S$):
- 여러 개의 구별되는 상태($|S|>1$)가 존재.
상태 전이 확률 ($P$):
- agent의 action($a$)에 따라
- 다음 상태($s'$)가 결정되는 환경의 법칙(=state transition probability)이 중요하게 작용($P(s'|s, a)$).
Policy ($\pi$):
- agent는 현재 상태 $s$를 확인하고,
- 그 상황에 가장 적합한 행동 $a$를 선택해야 함($\pi(a|s)$).
학습의 핵심 (Associative Search):
- agent는 "어떤 state에서 어떤 행동(Action)이 최선인가"를 서로 연결(Associate)하여 학습해야 함.
- 상황에 따라 전략을 바꿔야 하는 '연합적 탐색' 과정.

Stationary (정상성):
- 상태 전이 확률($P$)이나 보상 함수($R$) 같은 환경의 규칙이
- 시간이 상관없이 일정.
Non-stationary (비정상성):
- 시간이 흐름에 따라
- 환경의 규칙($P$ 또는 $R$) 자체가 변하는 상태.

Associative setting이면서 Non-stationary인 환경이 가장 어려운 난이도에 해당.

작성하신 훌륭한 요약 글의 흐름을 유지하면서, Q-table의 역할과 다른 핵심 개념들 간의 상관관계를 정리한 4절을 추가해 드립니다. 주요 용어는 학습의 편의를 위해 영어로 병기하였습니다.

RL에서 agent가 state와 action을 연합(associate)하여 최적의 policy를 세우기 위해 사용하는 가장 대표적인 도구가 바로 Q-table 임.

정의 (Definition):
- 특정 State ($s$)에서 특정 Action ($a$)을 취했을 때,
- 장기적으로 얻을 수 있는 기대 보상의 합(Expected Cumulative Reward),
- 즉 가치(Q-value)를 기록한 table.
Associative Setting에서의 Q-table:
- Q-table은 state를 행(Row)으로, action을 열(Column)로 가짐.
- agent는 이 Q-table을 채워나감으로써
- "어떤 state($s$)에서 어떤 action($a$)을 매핑(Associate)해야 하는지"를 구체적인 수치로 저장.

Policy ($\pi$)과의 관계:
- Q-table은 policy 그 자체는 아님.
- 단, policy가 결정을 내리기 위해 참조하는 가장 중요한 사전(Dictionary) 혹은 데이터베이스(Database) 라고 볼 수 있음.
- agent는 Q-table을 보고 "이 state에선 이 action의 점수가 제일 높네?"라고 판단하여 행동을 결정.
  - 예: Exploration and Exploitation을 조절하는 $\epsilon$-greedy 정책
상태 전이 확률(Transition Probability, $P$) 및 보상(Reward, $R$)과의 관계:
- Q-table은 환경의 법칙($P, R$)을 직접 저장하고 있지 않음.
- 대신, 불확실한 환경 속에서 부딪히며 얻은 경험을 가치(Value)라는 하나의 숫자로 압축하여 저장.
- 따라서 agent는 환경의 모델($P$)을 몰라도 Q-table만 있으면 최적의 결정을 내릴 수 있음(Model-free RL).

정상성/비정상성(Stationary / Non-stationary)과의 관계:
- 정상성(Stationary) 환경
  - Q-table의 값들은 학습이 반복됨에 따라
  - 점차 하나의 최적값으로 수렴(Convergence).
- 비정상성(Non-stationary) 환경
  - 환경의 규칙($P, R$)이 변하므로,
  - 과거의 값에 매몰되지 않도록 고정된 단계 크기(Constant Step-size, $\alpha$)를 사용하여
  - Q-table을 끊임없이 추적 및 업데이트(Tracking and Updating)해야 함.

728x90

Hugging Face Access Token 생성 및 권한 설정 가이드 (0)	2026.03.05
HF-TrainingArgument (0)	2026.02.21
JAX (Just After eXecution)소개 (0)	2026.01.16
Deployment 가능한 HF Custom (Vision) Model 만들기 (0)	2025.12.18
torchvision.datasets.CocoDetection 간단 소개. (0)	2025.12.16