Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- BOF
- rao
- C++
- MDP
- llm을 활용 단어장 앱 개발일지
- PCA
- FastAPI
- Algorithm
- pytorch
- ARM
- ML
- bloc
- fastapi를 사용한 파이썬 웹 개발
- 파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습
- DART
- Computer Architecture
- Stream
- BAEKJOON
- Flutter
- Widget
- study book
- MATLAB
- 백준
- system hacking
- 영상처리
- Got
- BFS
- Image Processing
- Dreamhack
- Kaggle
Archives
- Today
- Total
Bull
[DL] 순전파의 bias와 MDP의 reward의 차이 본문
궁금해진 이유
학부 공부중, 딥러닝과 강화학습을 동시에 배우고 있는데 수식중에 bias과 reward는 은닉층에서의 수식에 더하는 개념으로 등장하는데 생김새가 비슷해서 같은 개념인지 헷갈려서 정리한다.
순전파의 Bias(편향)
딥러닝에서 신경망의 각 뉴런은 입력 데이터에 가중치를 곱한 후, 이 결과에 bias를 더하여 최종 출력을 결정한다.
Bias는 신경망이 입력 데이터가 없거나 입력에 대한 가중치의 합이 0일 때도 활성화될 수 있게 하는 역할을 한다.
이를 통해 모델의 유연성과 표현력이 향상된다.
순전파는 입력 데이터가 신경망을 통해 전달되어 출력까지 이르는 과정을 말하며,
이 과정에서의 bias는 데이터가 가진 기본적인 편향을 모델에 반영하는 역할을 한다.
강화학습의 MDP의 Reward(보상)
강화학습에서 MDP는 의사결정 과정을 수학적으로 모델링한 것이다.
여기서 보상(reward)은 에이전트가 특정 상태에서 어떤 행동을 취했을 때 받는 피드백으로, 에이전트의 행동이 얼마나 좋은지(또는 나쁜지)를 나타낸다.
강화학습의 목표는 에이전트가 시간에 걸쳐 최대의 누적 보상을 얻을 수 있도록 학습하는 것이다.
여기서 보상은 에이전트가 환경과 상호작용하며 얻는 긍정적 또는 부정적인 피드백이다.
요약..
딥러닝에서의 bias는 신경망 내의 계산 과정에서 사용되는 매개변수이며,
강화학습에서의 reward는 에이전트가 특정 행동을 했을 때 환경으로부터 받는 피드백이다.
따라서 이 두 개념은 각각 다른 맥락과 목적으로 사용된다.
'Artificial Intelligence > Deep Learning' 카테고리의 다른 글
[DL] MobileNet 요약 (0) | 2024.08.05 |
---|---|
[Deep Learning] 코드를 보며 RNN 이해하기 (0) | 2024.05.30 |
[DL/유머] 인공지능이 SoftMax(소맥)먹고 취하는 사진 (1) | 2024.03.17 |
[DL/CNN] ResNet (Residual Network) (0) | 2024.03.16 |
[DL] Flatten 층이란? (0) | 2024.03.02 |