'adam' 태그의 글 목록

Adam Optimizer, Loss 튐 현상의 진짜 원인딥러닝 모델을 학습하다 보면 손실(Loss) 값이 안정적으로 감소하지 않고 순간적으로 치솟는, 이른바 "Loss가 튄다"는 현상을 마주하곤 합니다. 많은 분들이 단순히 학습률(learning rate)이 너무 높기 때문이라고 생각하지만, 사실 원인은 Adam Optimizer의 구조적 특징에 있습니다.학습 중 Loss가 위로 튀는 현상Adam의 업데이트 식에 숨겨진 비밀Adam Optimizer는 그래디언트의 1차 모멘텀(m̂ₜ)과 2차 모멘텀(v̂ₜ)을 함께 사용하여 파라미터를 업데이트합니다. 튐 현상의 원인은 바로 이 업데이트 수식, 특히 분모에 있습니다.Δₜ = α · (m̂ₜ / (√v̂ₜ + ε))여기서 v̂ₜ는 그래디언트 제곱값의 지수 ..