관리 메뉴

Bull

[DL] 순전파의 bias와 MDP의 reward의 차이 본문

Artificial Intelligence/Deep Learning

[DL] 순전파의 bias와 MDP의 reward의 차이

Bull_ 2024. 3. 6. 00:10

궁금해진 이유

학부 공부중, 딥러닝과 강화학습을 동시에 배우고 있는데 수식중에 bias과 reward는 은닉층에서의 수식에 더하는 개념으로 등장하는데 생김새가 비슷해서 같은 개념인지 헷갈려서 정리한다.


순전파의 Bias(편향)

딥러닝에서 신경망의 각 뉴런은 입력 데이터에 가중치를 곱한 후, 이 결과에 bias를 더하여 최종 출력을 결정한다.

 

Bias는 신경망이 입력 데이터가 없거나 입력에 대한 가중치의 합이 0일 때도 활성화될 수 있게 하는 역할을 한다.

 

이를 통해 모델의 유연성과 표현력이 향상된다.

 

순전파는 입력 데이터가 신경망을 통해 전달되어 출력까지 이르는 과정을 말하며,

 

이 과정에서의 bias는 데이터가 가진 기본적인 편향을 모델에 반영하는 역할을 한다.

 

 

강화학습의 MDP의 Reward(보상)

강화학습에서 MDP는 의사결정 과정을 수학적으로 모델링한 것이다.

 

여기서 보상(reward)은 에이전트가 특정 상태에서 어떤 행동을 취했을 때 받는 피드백으로, 에이전트의 행동이 얼마나 좋은지(또는 나쁜지)를 나타낸다.

 

강화학습의 목표는 에이전트가 시간에 걸쳐 최대의 누적 보상을 얻을 수 있도록 학습하는 것이다.

 

여기서 보상은 에이전트가 환경과 상호작용하며 얻는 긍정적 또는 부정적인 피드백이다.

 

 

요약..

 

딥러닝에서의 bias는 신경망 내의 계산 과정에서 사용되는 매개변수이며, 

 

강화학습에서의 reward는 에이전트가 특정 행동을 했을 때 환경으로부터 받는 피드백이다. 

 

따라서 이 두 개념은 각각 다른 맥락과 목적으로 사용된다.