티스토리 뷰

Deep-Learning

Optimization for Deep Learning

프루브프로젝트 2024. 3. 28. 02:17

내가 대학원에 온 가장 큰 학문적 이유는 이러한 이론 (수학적 이론 <-> 코드) 이 필요해서이다. 이번 학기 딥러닝 수업을 수강하는데 딱 내가 필요했던 방식으로 수업을 해주셔서 공부할 맛이 난다. Optimization에 대한 과제를 하면서 좀 더 이해가 필요한 부분을 구글링을 통해 찾아가면서 공부하여 정리하였다.

 

Output Layer 에서 Loss 값이 계산되는 구조

 

Loss 는 실제 레이블과 예측된 레이블의 차이를 계산하며, Input Data, Label, Weight 로 구성된다.

 

Gradient Desecnt 에서는 모든 데이터에 대해 Gradient 가 계산된다.

 

모든 데이터의 Gradient를 계산할 때, 효율성을 위해 Batch를 사용한다. (m=Batch Size, Batch=Subset)

 

Batch 별로 Gradient 가 계산된다. Weight에 대해 partial derivative (편미분)을 수행한다.

 

여기까지가 Basic Optimization.

 

Loss function 에 Weight 반영을 계산하는 방법에 따라(learning rate 적용 방법이 달라짐) 다양한 Optimizer 를 사용할 수 있다.

 

 

 

자료 출처: https://www.youtube.com/watch?v=NE88eqLngkg

 

댓글
최근에 올라온 글
페이지 이동 안내

보던 글 목록 : 브라우저 뒤로 가기 메인 화면 : 좌측 상단 아이콘
🍍 The GOAL: AI expert에 가까워지는 중

🍍 I am becoming AI expert who can develop cool things by coding.