일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습
- Widget
- DART
- MATLAB
- Algorithm
- Kaggle
- MDP
- BOF
- Dreamhack
- BFS
- llm을 활용 단어장 앱 개발일지
- Computer Architecture
- 백준
- 영상처리
- Got
- ML
- PCA
- rao
- pytorch
- bloc
- BAEKJOON
- Stream
- fastapi를 사용한 파이썬 웹 개발
- system hacking
- FastAPI
- ARM
- C++
- study book
- Flutter
- Image Processing
- Today
- Total
목록Artificial Intelligence/Reinforcement Learning (4)
Bull

이 포스팅은 학교수업과 노승은 저자의 "바닥부터 배우는 강화 학습"을 바탕으로 정리하였고 저자의 책에 나오는 TD 예제에서 n-step TD를 구현해보았다. 소스코드 class GridWorld: def __init__(self): self.x = 0 self.y = 0 def step(self, a): if a == 0: self.move_left() elif a == 1: self.move_up() elif a == 2: self.move_right() elif a == 3: self.move_down() reward = -1 done = self.is_done() return (self.x, self.y), reward, done def move_right(self): self.y += 1 if s..

이 포스팅은 학교수업과 노승은 저자의 "바닥부터 배우는 강화 학습"을 바탕으로 정리했다. 학교 수업또한 저자 책을 바탕으로 수업을 받기 때문에 강의자료(요약에 가까운)와 책을 보며 정리했다. 밸류 평가하기 - 반복적 정책 평가 에피소드마다 밸류를 평가해주면서 정책을 업데이트 해준다. 지속적인 업데이트를 하여 실제 값에 가까워진다. 벨만 기대 방정식을 사용하여 예시를 들어보겠다. 기대 방정식과 최적 방정식의 차이는 * 유무를 확인하면된다. (*있는 게 최적 방정식) 그리드 월드의 MDP 정보 • 모든 상태 𝑠에서의 보상: $r^a_s = −1$ • 모든 상태 𝑠에서의 전이 확률: $𝑃^a_{𝑠𝑠′}= 1.0$ • 감쇠 인자: $γ = 1$ • 정책 : 4방향 랜덤 $v_π(s) = \sum_{a∈A} π(..

이 포스팅은 학교수업과 노승은 저자의 "바닥부터 배우는 강화 학습"을 바탕으로 정리했다. 학교 수업또한 저자 책을 바탕으로 수업을 받기 때문에 강의자료(요약에 가까운)와 책을 보며 정리했다. 개념 벨만 방정식은 MDP를 수식적으로 쉽게 이해하기 위해 접근한 방정식이다. 또한 밸류를 구할 때 벨만 방정식을 사용해야 한다. 분류는 벨만 기대 방정식, 벨만 최적 방정식 두 가지로 나뉜다. 벨만 기대 방정식 책에서는 벨만 방정식을 단계별로 설명했다. 0단계 $v_π(S_t) = E_π[G_t|S_t]$ $=E_π[R_{t+1} + γR_{t+2} + γ^2R_{t+3} + ···|S_t]$ $= E_π[R_{t+1} + γ(R_{t+2} + γR_{t+3} + ···)|S_t]$ $= E_π[R_{t+1} + ..

이 포스팅은 학교수업과 노승은 저자의 "바닥부터 배우는 강화 학습"을 바탕으로 정리했다. 학교 수업또한 저자 책을 바탕으로 수업을 받기 때문에 강의자료(요약에 가까운)와 책을 보며 정리했다. 개념 MDP는 마르코프 결정 프로세스의 약자로 의사결정 과정을 모델링하는 수학적인 틀을 제공한다. MDP의 Agent와 Reward를 통하여 마지막에 가장 큰 보상을 위한 상태를 찾아나선다. 우선 MDP를 알기위해 MP와 MRP에 대해 설명하겠다. MP (Markov Process) $$MP ≡ (S, P)$$ flow chart를 좀 형편없이 그린 감이 없지않아 있지만... 설명하자면 시작부터 도착까지 확률 P만 존재할 때 위의 그림과 같이 표현할 수 있다. 여기서 P를 전이확률이라고 하며, 이 전이확률을 행렬로 ..