Gradient scaling이란 무엇인가? (With Adam Optimizer)
Gradient scaling이란 무엇인가?'Gradient scaling'은 말 그대로, 어떤 파라미터의 gradient가 일정한 비율로 커지거나 작아지는 현상을 말한다. 표면적으로는 gradient 자체의 문제처럼 보이지만, 이 스케일 차이는 사실 forward 과정의 입력 x에 의해 유발된다. 선형층 z = wTx를 예로 들면, 역전파 시 gradient는 다음과 같이 계산된다:∂L/∂w_i = ∂L/∂z ⋅ x_i즉, 입력 특성 x_i의 크기가 클수록 해당 방향의 gradient도 커진다. 이로 인해, 각 파라미터가 받는 gradient의 크기가 입력 스케일에 따라 달라지게 된다. 이것이 바로 'gradient scaling' 문제의 본질이다.Gradient scaling 문제는 왜 optimiz..
🖥️ Computer Vision/📰 Paper
2025. 7. 26. 15:34
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Example
- logitadjustment
- AdamOptimizer
- DeepLearning
- vlm
- 다중세밀도
- depthwise
- tensorflow
- convolution
- imbalanceddata
- code
- separable
- classimbalance
- GradientScaling
- LossFunction
- ScientificReports
- PCA
- MGFA
- 경량화 모델
- Optimizer
- eigenvector
- 선형대수
- 논문리뷰
- CriticV
- GradientDescent
- 특징융합
- 딥러닝
- Focal loss
- fisherconsistency
- MobileNet
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
글 보관함
반응형