ํฐ์คํ ๋ฆฌ ๋ทฐ
ReLU๋ฅผ ์ํ ํํธ๋, He ์ด๊ธฐํ (He Initialization)
MewwSikk 2025. 9. 4. 16:06ReLU๋ฅผ ์ํ ์ต๊ณ ์ ํํธ๋, He ์ด๊ธฐํ (He Initialization) ์๋ฒฝ ์ ๋ฆฌ
๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ต์ํฌ ๋, ๊ฐ์ค์น๋ฅผ ์ด๋ป๊ฒ ์ด๊ธฐํํ๋๋๋ ํ์ต์ ์ฑํจ๋ฅผ ์ข์ฐํ๋ ๋งค์ฐ ์ค์ํ ์์์ ๋๋ค. ํนํ ํ๋ ์ ๊ฒฝ๋ง์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ํ์ฑํ ํจ์์ธ ReLU๋ ํน์ ๊ฐ์ค์น ์ด๊ธฐํ ๋ฐฉ๋ฒ๊ณผ ํจ๊ป ์ฌ์ฉํ ๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ์ด๋ฒ ํฌ์คํ ์์๋ ReLU์ ๋จ์ง, He ์ด๊ธฐํ(He Initialization)์ ๋ํด ๊น์ด ์๊ฒ ์์๋ณด๊ฒ ์ต๋๋ค.
He ์ด๊ธฐํ, ์ ํ์ํ ๊น? : Xavier์ ํ๊ณ
He ์ด๊ธฐํ๋ฅผ ์ดํดํ๊ธฐ ์ ์, ์ ๊ธฐ์กด์ Xavier(Glorot) ์ด๊ธฐํ ๋ฐฉ๋ฒ์ด ReLU ํจ์์๋ ์ ๋ง์ง ์๋์ง ์์์ผ ํฉ๋๋ค. Xavier ์ด๊ธฐํ๋ Sigmoid๋ Tanh ํจ์์ฒ๋ผ ์ถ๋ ฅ๊ฐ์ด 0์ ์ค์ฌ์ผ๋ก ๋ถํฌํ๋ ํ์ฑํ ํจ์์ ์ต์ ํ๋์ด ์์ต๋๋ค. ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ๋ถ์ฐ์ ๋์ผํ๊ฒ ์ ์งํ์ฌ ์์ ์ ์ธ ํ์ต์ ๋๋ ๊ฒ์ด ํต์ฌ ์์ด๋์ด์ฃ .
ํ์ง๋ง ReLU๋ ์กฐ๊ธ ๋ค๋ฆ ๋๋ค. ReLU ํจ์๋ ์ ๋ ฅ์ด ์์์ด๋ฉด 0์ผ๋ก, ์์์ด๋ฉด ๊ทธ๋๋ก ์ถ๋ ฅํฉ๋๋ค. ์ด ํน์ฑ ๋๋ฌธ์ ํต๊ณ์ ์ผ๋ก ํ์ฑํ๊ฐ์ ์ ๋ฐ์ด 0์ด ๋์ด๋ฒ๋ฆฌ๊ณ , ์ด๋ ์ ์ฒด ์ ํธ์ ๋ถ์ฐ์ ์ ๋ฐ์ผ๋ก ์ค์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์ต๋๋ค.
๋ฌธ์ ์ : ์ ํธ๊ฐ ์ ์ ์ฝํด์ง๋ค!
Xavier ์ด๊ธฐํ ์ํ์์ ReLU๋ฅผ ์ฌ์ฉํ๋ฉด, ๊ฐ ์ธต์ ์ง๋ ๋๋ง๋ค ์ ํธ(๋ถ์ฐ)์ ์ธ๊ธฐ๊ฐ ์ ๋ฐ์ผ๋ก ๊ณ์ ์ค์ด๋ญ๋๋ค. ์ธต์ด ๊น์ด์ง์๋ก ์ ํธ๋ ๊ฑฐ์ ์ฌ๋ผ์ง๊ฒ ๋๊ณ , ์ด๋ ๊ฒฐ๊ตญ ๊ทธ๋๋์ธํธ ์์ค(Vanishing Gradient) ๋ฌธ์ ๋ก ์ด์ด์ ธ ๋ชจ๋ธ์ด ์ ๋๋ก ํ์ตํ์ง ๋ชปํ๊ฒ ๋ฉ๋๋ค.
He ์ด๊ธฐํ: ์ฌ๋ผ์ง๋ ์ ํธ๋ฅผ ๋์ด๋ฆฌ๋ ๋ฐฉ๋ฒ
He ์ด๊ธฐํ๋ ReLU์ ํน์ฑ ๋๋ฌธ์ ๋ฐ์ํ๋ ์ด ๋ฌธ์ ๋ฅผ ์์ฃผ ๊ฐ๋จํ๊ณ ๋ช ์พํ ์์ด๋์ด๋ก ํด๊ฒฐํฉ๋๋ค.
ํต์ฌ ์์ด๋์ด: ๋ฏธ๋ฆฌ 2๋ฐฐ๋ก ๊ฐํ๊ฒ!
"์ด์ฐจํผ ReLU๋ฅผ ์ง๋๋ฉด ์ ํธ์ ๋ถ์ฐ์ด ์ ๋ฐ์ผ๋ก ์ค์ด๋ค ๊ฒ์ด๋, ์์ ์์ํ ๋ ์ด๊ธฐ ๊ฐ์ค์น์ ๋ถ์ฐ์ 2๋ฐฐ๋ก ๋๋ ค์ ์์ํ์!"
์ด๊ฒ์ด ๋ฐ๋ก He ์ด๊ธฐํ์ ํต์ฌ์ ๋๋ค. ๋ถ์ฐ์ 2๋ฐฐ๋ก ๋๋ ค ํ์ต์ ์์ํ๋ฉด, ReLU ์ธต์ ํต๊ณผํ๋ฉฐ ๋ถ์ฐ์ด ์ ๋ฐ์ผ๋ก ์ค์ด๋ค๋๋ผ๋, ๊ฒฐ๊ณผ์ ์ผ๋ก๋ ์ ๋ ฅ๊ณผ ๋น์ทํ ์์ค์ ๋ถ์ฐ์ ์ ์งํ ์ ์๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ์ ํธ๊ฐ ์ธต์ด ๊น์ด์ ธ๋ ์์ ์ ์ผ๋ก ์ ๋ฌ๋์ด ํ์ต์ด ์ํํ๊ฒ ์งํ๋ฉ๋๋ค.
์ํ์ ํํ
He ์ด๊ธฐํ๋ ์ด์ ๊ณ์ธต์ ๋
ธ๋ ์(n_in)๋ฅผ ์ด์ฉํ์ฌ ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํํฉ๋๋ค. ํ์คํธ์ฐจ๊ฐ $\sqrt{\frac{2}{n_{in}}}$์ธ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋๋ก ์ค์ ํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์
๋๋ค.
w ~ N(0, sqrt(2 / n_in))
์ง๊ด์ ์ธ ์ดํด: ๋ฐ๋ง ํต๊ณผ์ํค๋ ๋ฌธ
'์ด๊ธฐ ๋ถ์ฐ์ 2๋ฐฐ๋ก ๋๋ฆฌ๋ฉด ์ด๋ป๊ฒ ์ถ๋ ฅ ๋ถ์ฐ์ด ์ ์ง๋ ๊น?' ๋ผ๋ ์ง๋ฌธ์ด ๋ค ์ ์์ต๋๋ค. ReLU๋ฅผ '๋ฐ๋ง ํต๊ณผ์ํค๋ ๋ฌธ'์ด๋ผ๊ณ ์๊ฐํ๋ฉด ์ฝ์ต๋๋ค.
- Xavier ์ด๊ธฐํ: ์ ์ ์ธ๊ธฐ์ ์ ํธ๊ฐ ๋ฌธ์ ํต๊ณผํ๋ฉฐ ์ ๋ฐ์ผ๋ก ์ฝํด์ง๊ณ , ์ ์ ์ฌ๋ผ์ง๋๋ค.
- He ์ด๊ธฐํ: ์ฒ์๋ถํฐ 2๋ฐฐ ๊ฐํ ์ ํธ๋ฅผ ๋ณด๋ ๋๋ค. ์ด ์ ํธ๊ฐ ๋ฌธ์ ํต๊ณผํ๋ฉฐ ์ ๋ฐ์ผ๋ก ์ฝํด์ง๋๋ผ๋, ๊ฒฐ๊ณผ์ ์ผ๋ก๋ ์๋ ์ฐ๋ฆฌ๊ฐ ์ํ๋ '์ ์ ์ธ๊ธฐ'์ ์ ํธ๋ฅผ ์ ์งํ๊ฒ ๋ฉ๋๋ค.
์ด์ฒ๋ผ He ์ด๊ธฐํ๋ ReLU์ ํน์ฑ์ ์ ํํ ์ดํดํ๊ณ , ๊ทธ๋ก ์ธํ ์์ค์ ๋ฏธ๋ฆฌ ๋ณด์ํด์ฃผ๋ ์์ฃผ ์ค๋งํธํ ๋ฐฉ๋ฒ์ ๋๋ค.
'๐ฅ๏ธ Computer Vision' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| ์ ์ฌ๋ ํ๋ ฌ์ ์์ฑ ๋งค์ปค๋์ฆ์ ์ดํด (0) | 2026.01.09 |
|---|---|
| [Tensorflow] Gradient Tape์ ์ด์ฉํ ์๋ ๋ฏธ๋ถ๊ณผ ์ค์ฐจ ์ญ์ ํ (0) | 2023.08.17 |
| TIF ํ์ผ์ด๋? (0) | 2023.06.25 |
- Total
- Today
- Yesterday
- ๋ ผ๋ฌธ๋ฆฌ๋ทฐ
- LossFunction
- ํน์ง์ตํฉ
- MobileNet
- depthwise
- convolution
- CriticV
- DeepLearning
- MGFA
- PCA
- classimbalance
- ScientificReports
- GradientDescent
- logitadjustment
- imbalanceddata
- ๋ค์ค์ธ๋ฐ๋
- code
- Focal loss
- Optimizer
- AdamOptimizer
- fisherconsistency
- ๊ฒฝ๋ํ ๋ชจ๋ธ
- ๋ฅ๋ฌ๋
- ์ ํ๋์
- eigenvector
- Example
- separable
- tensorflow
- vlm
- GradientScaling
| ์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |