Artificial Intelligence/Deep Learning
[DL] 순전파의 bias와 MDP의 reward의 차이
Bull_
2024. 3. 6. 00:10
궁금해진 이유
학부 공부중, 딥러닝과 강화학습을 동시에 배우고 있는데 수식중에 bias과 reward는 은닉층에서의 수식에 더하는 개념으로 등장하는데 생김새가 비슷해서 같은 개념인지 헷갈려서 정리한다.
순전파의 Bias(편향)
딥러닝에서 신경망의 각 뉴런은 입력 데이터에 가중치를 곱한 후, 이 결과에 bias를 더하여 최종 출력을 결정한다.
Bias는 신경망이 입력 데이터가 없거나 입력에 대한 가중치의 합이 0일 때도 활성화될 수 있게 하는 역할을 한다.
이를 통해 모델의 유연성과 표현력이 향상된다.
순전파는 입력 데이터가 신경망을 통해 전달되어 출력까지 이르는 과정을 말하며,
이 과정에서의 bias는 데이터가 가진 기본적인 편향을 모델에 반영하는 역할을 한다.
강화학습의 MDP의 Reward(보상)
강화학습에서 MDP는 의사결정 과정을 수학적으로 모델링한 것이다.
여기서 보상(reward)은 에이전트가 특정 상태에서 어떤 행동을 취했을 때 받는 피드백으로, 에이전트의 행동이 얼마나 좋은지(또는 나쁜지)를 나타낸다.
강화학습의 목표는 에이전트가 시간에 걸쳐 최대의 누적 보상을 얻을 수 있도록 학습하는 것이다.
여기서 보상은 에이전트가 환경과 상호작용하며 얻는 긍정적 또는 부정적인 피드백이다.
요약..
딥러닝에서의 bias는 신경망 내의 계산 과정에서 사용되는 매개변수이며,
강화학습에서의 reward는 에이전트가 특정 행동을 했을 때 환경으로부터 받는 피드백이다.
따라서 이 두 개념은 각각 다른 맥락과 목적으로 사용된다.