[DL] 순전파의 bias와 MDP의 reward의 차이

Notice

Recent Posts

Tags more

Archives

관리 메뉴

Bull

Artificial Intelligence/Deep Learning

Bull_ 2024. 3. 6. 00:10

학부 공부중, 딥러닝과 강화학습을 동시에 배우고 있는데 수식중에 bias과 reward는 은닉층에서의 수식에 더하는 개념으로 등장하는데 생김새가 비슷해서 같은 개념인지 헷갈려서 정리한다.

딥러닝에서 신경망의 각 뉴런은 입력 데이터에 가중치를 곱한 후, 이 결과에 bias를 더하여 최종 출력을 결정한다.

Bias는 신경망이 입력 데이터가 없거나 입력에 대한 가중치의 합이 0일 때도 활성화될 수 있게 하는 역할을 한다.

이를 통해 모델의 유연성과 표현력이 향상된다.

순전파는 입력 데이터가 신경망을 통해 전달되어 출력까지 이르는 과정을 말하며,

이 과정에서의 bias는 데이터가 가진 기본적인 편향을 모델에 반영하는 역할을 한다.

강화학습에서 MDP는 의사결정 과정을 수학적으로 모델링한 것이다.

여기서 보상(reward)은 에이전트가 특정 상태에서 어떤 행동을 취했을 때 받는 피드백으로, 에이전트의 행동이 얼마나 좋은지(또는 나쁜지)를 나타낸다.

강화학습의 목표는 에이전트가 시간에 걸쳐 최대의 누적 보상을 얻을 수 있도록 학습하는 것이다.

여기서 보상은 에이전트가 환경과 상호작용하며 얻는 긍정적 또는 부정적인 피드백이다.

딥러닝에서의 bias는 신경망 내의 계산 과정에서 사용되는 매개변수이며,

강화학습에서의 reward는 에이전트가 특정 행동을 했을 때 환경으로부터 받는 피드백이다.

따라서 이 두 개념은 각각 다른 맥락과 목적으로 사용된다.

[DL] MobileNet 요약 (0)	2024.08.05
[Deep Learning] 코드를 보며 RNN 이해하기 (0)	2024.05.30
[DL/유머] 인공지능이 SoftMax(소맥)먹고 취하는 사진 (1)	2024.03.17
[DL/CNN] ResNet (Residual Network) (0)	2024.03.16
[DL] Flatten 층이란? (0)	2024.03.02

'Artificial Intelligence/Deep Learning' Related Articles