์ด๋ฒ ํฌ์คํธ์์๋ Object Detection์ ์งํํ ๋ ํ๋ ์ ๊ฐ ๊ฐ์ฒด๊ฐ ๋์ผํ ๊ฐ์ฒด์ธ์ง ์๋์ง์ ๋ํ ํ๋จ์ ์งํํ ์ ์๋ ๋ชจ๋ธ์ธ Barlow Twins๋ผ๋ ๋ชจ๋ธ์ ๋ํ ๋ ผ๋ฌธ๋ฆฌ๋ทฐ๋ฅผ ์งํํด ๋ณด๋ ค ํฉ๋๋ค.
๋ณด์ํ ๋ถ๋ถ์ด ์๋ค๋ฉด ๋๊ธ์ ์ฒจ์ธํด ์ฃผ์๋ฉด ๊ฐ์ฌํ๊ฒ ์ต๋๋ค.
๋ ผ๋ฌธ ๋งํฌ: https://arxiv.org/abs/2103.03230
Abstraction
Self-Supervised Learning(SSL)์ ์ ๋ ฅ ์ํ์ ์๊ณกํ์ ๋, ๊ทธ๋ฐ ์๊ณก์ ๋ํ ๋ถ๋ณํ ์๋ฒ ๋ฉ์ ๋ง๋ฆ์ผ๋ก์จ Supervised Learning๊ณผ์ ๊ฒฉ์ฐจ๋ฅผ ๋น ๋ฅด๊ฒ ์ค์ฌ๊ฐ๊ณ ์์ต๋๋ค. (SSL์ด๋ ์ ๋ต ๋ฐ์ดํฐ ์์ด, ์ ๋ ฅ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ๋ ๊ธฐ๋ฒ์ ๋งํฉ๋๋ค.) ๊ทธ๋ฌ๋ ์ด๋ฐ ์ ๊ทผ๋ฒ์ ๋ฐ๋ณต๋๋ ๋ฌธ์ ๋ ํน์ ํ์ต ๋ฐ์ดํฐ์ ๋ํด์ ๋์ผํ ์ถ๋ ฅ์ ์์ฑํ๋ ๋ฐฉ์์ผ๋ก "ํ์ต"ํ๋ ๋ฌธ์ ๊ฐ ์กด์ฌํ์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ์ฌ ์ด ๋ ผ๋ฌธ์์๋ ์ํ์ ์๊ณก๋ ๋ฒ์ ์ผ๋ก ๊ณต๊ธ๋ ๋ ๊ฐ์ ๋์ผํ ๋คํธ์ํฌ์ ์ถ๋ ฅ ์ฌ์ด์ ๊ต์ฐจ ์๊ด ํ๋ ฌ์ ์ธก์ ํ๊ณ ๊ฐ๋ฅํ ํ ๋์ผํ ํ๋ ฌ์ ๊ฐ๊น๊ฒ ๋ง๋ฆ์ผ๋ก์จ ์์ฐ์ค๋ฝ๊ฒ ๋ถ๊ดด๋ฅผ ํผํ ์ ์๋ ๋ชฉ์ ํจ์๋ฅผ ์ ์ํฉ๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก ์ด๋ฌํ ๊ณผ์ ์ ํตํด ์๊ณก๋ ์ด๋ฏธ์ง ๊ฐ์ ์ฐจ์ด๊ฐ ์ต์ํ๋ embedding vector๋ฅผ ์์ฑํ๊ฒ ๋ฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ ๊ฒฝ๊ณผํ์ H. Barlow์ redundancy-reduction(์ค๋ณต ๊ฐ์) ์๋ฆฌ๊ฐ ๋์ผํ ๋คํธ์ํฌ ์์ ์ ์ฉ๋๊ธฐ ๋๋ฌธ์ Barlow Twins๋ผ๊ณ ๋ถ๋ฆฝ๋๋ค. Barlow Twins๋ ํฐ ๋ฐฐ์น๋ฅผ ํ์๋ก ํ์ง ์์ผ๋ฉฐ, ๋คํธ์ํฌ ์ ์ฌ์ด์ ์์ธก์ ๋คํธ์ํฌ, ๊ธฐ์ธ๊ธฐ ์ค๋จ, ๊ฐ์ค์น ์ ๋ฐ์ดํธ์ ์ด๋ ํ๊ท ๊ณผ ๊ฐ์ ๋น๋์นญ์ฑ ๋ํ ํ์๋ก ํ์ง ์์ต๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋ Barlow Twins๋ ๊ณ ์ฐจ์์ ์ถ๋ ฅ ๋ฒกํฐ์์ ์ด์ต์ ์ป์ต๋๋ค. ์ด ์๋ฏธ๋ ๋์ ์ฐจ์์ ํน์ฑ์ ์ฌ์ฉํ์ฌ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ ๋ชจ๋ธ์ ํ์ตํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
1. Introduction
SSL์ ์ธ๊ฐ์ ๊ฐ์ ์์ด input data๋ก๋ถํฐ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ๋ฝ์๋ด๋ ์ ์ ์ด์ ์ ๋ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค. Computer Vision์์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์งํํ์์ ๋ ๋ถ๋ณํ๋ ํํ์ ๋ํด์ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ ์ผ๋ฐ์ ์ผ๋ก ํ๋์ ์ํ์ ๋ํ ๋ค์ํ ์๊ณก ๋ฒ์ ์ ํตํด ์ป์ ํํ๋ค์ ์ ์ฌ์ฑ์ ์ต๋ํํ์ฌ ๋ฌ์ฑํ ์ ์์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ค์ํ Simese ๋คํธ์ํฌ์ ๋ณํ์ ์ฌ์ฉํ์ฌ ์ด๋ฃจ์ด์ง๋๋ค. ํ์ง๋ง ์ด๋ฐ ๋ฌธ์ ์์๋ ์์ ํํ๊ณผ ๊ฐ์ ์ฌ์ํ ํด๊ฒฐ์ฑ ์ด ์๊ณ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ ์ฉํ ํํ์ ํ์ตํ๊ธฐ ์ํด ๋ค์ํ ๋ฉ์ปค๋์ฆ์ ์์กดํฉ๋๋ค.
SIMCLR๊ณผ ๊ฐ์ ๋์กฐ์ ์ธ ๋ฐฉ๋ฒ์ loss์์ ๋ค๋ฅด๊ฒ ์ ์ฉ๋๋ 'positive'์ 'negative' sample์ ์ ์ํฉ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก ๊ทธ๋ค์ ํ์ต ๊ณผ์ ์์ 'positive pair'์ 'negative pair'๊ฐ์ ํ์ต ์ ๋ฐ์ดํธ๋ฅผ ๋ค๋ฅด๊ฒ ํ ์ ์๋ ๋น๋์นญ ํ์ต ์ ๋ฐ์ดํธ๋ฅผ ์ฌ์ฉํ๊ธฐ๋ ํฉ๋๋ค.
DEEPCLUSTER, SWAV, SELA์ ๊ฐ์ ๊ตฐ์งํ ๋ฐฉ๋ฒ์ ์๊ณก๋ ์ํ ์ค ํ๋๋ฅผ ์ด์ฉํ์ฌ ์์ค์ 'target'์ ๊ณ์ฐํ๊ณ , ๋ค๋ฅธ ์๊ณก๋ ์ํ ๋ฒ์ ์ ์ด์ฉํ์ฌ ์ด๋ฌํ ํ๊ฒ์ ์์ธกํฉ๋๋ค. ์ดํ, K-means๋ ๋ฏธ๋ถ ๋ถ๊ฐ๋ฅํ ์ฐ์ฐ์์ ๊ฐ์ ๋์ฒด ์ต์ ํ ๊ธฐ๋ฒ์ ์ด์ฉํฉ๋๋ค.
BYOL ๋ฐ SIMSIAM์ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ๋ฅผ ์์ ํ์ฌ ๋น๋์นญ์ฑ์ ๋์ ํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๊ณ ์์ต๋๋ค. ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์์ ํ์ฌ 'predictor' ๋คํธ์ํฌ๋ฅผ ๋์ ํ๊ณ , ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ๋ฅผ ๋น๋์นญ์ ์ผ๋ก ์กฐ์ ํ์ฌ ์ ๋ ฅ์ ํ ์๊ณก ๋ฒ์ ๋ง์ ์ฌ์ฉํด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๊ณ , ๋ค๋ฅธ ์๊ณก ๋ฒ์ ์ ํํ์ ๊ณ ์ ๋ ํ๊ฒ์ผ๋ก ํ์ฉํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์๋ก์ด ๋ฐฉ๋ฒ์ธ "Barlow Twins"๋ฅผ ์ ์ํ๋ฉฐ, ์ด ๋ฐฉ๋ฒ์ ์ ๊ฒฝ ๊ณผํ์์ ์ฒ์ ์ ์๋ ์ค๋ณต ์ ๊ฑฐ ์์น์ ์๊ฐ ๊ฐ๋ ํ์ต์ ์ ์ฉํฉ๋๋ค. ์ ๊ฒฝ๊ณผํ์ H. Barlow๋ ์ํฅ๋ ฅ ์๋ ๋ ผ๋ฌธ "Possible Principles Underlying the Transformation of Sensory Messages"์์ ๊ฐ๊ฐ ๋ฉ์์ง์ ๋ณํ์ ๊ธฐ๋ฐํ ์์น์ผ๋ก ์ค๋ณต ์ ๊ฑฐ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ์์น์ ๊ฐ๊ฐ์ ์ธ ์ ๋ ฅ์ ํต๊ณ์ ์ผ๋ก ๋ ๋ฆฝ๋ ๊ตฌ์ฑ ์์๋ฅผ ๊ฐ์ง ์ธ์ ์ฝ๋๋ก ๋ค์ ์ธ์ฝ๋ฉํ๋ ๊ฒ์ด ๊ฐ๊ฐ ์ฒ๋ฆฌ์ ๋ชฉํ๋ผ๊ณ ๊ฐ์ค์ ์ธ์ ์ต๋๋ค. ์ด ์์น์ ์๊ฐ ์ฒด๊ณ์ ๊ตฌ์กฐ๋ฅผ ์ค๋ช ํ๋๋ฐ ์ ์ฉํ๋ฉฐ, ์ด๊ฒ์ ๋ง๋ง์์ ํผ์ง ์์ญ๊น์ง์ ์กฐ์ง์ ํฌํจํฉ๋๋ค. ์ด ์์น์ ๊ฐ๋ ๋ฐ ๋น๊ฐ๋ ํ์ต์ ์ํ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐํ๋ ๋ฐ ์ด์ด์ก์ต๋๋ค.
์ด ์์น์ ๊ธฐ๋ฐ์ผ๋ก, ์ด ๋ ผ๋ฌธ์ "Barlow Twins"๋ผ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋์ผํ ๋ชจ๋ธ์์ ๊ณ์ฐ๋ ๊ต์ฐจ ์๊ด ํ๋ ฌ์ ๋จ์ ํ๋ ฌ์ ๊ฐ๊น๊ฒ ๋ง๋๋ ๋ชฉ์ ํจ์๋ฅผ ์ ์ํฉ๋๋ค. "Barlow Twins"๋ ๊ฐ๋ ์ ์ผ๋ก ๊ฐ๋จํ๋ฉฐ, ๊ตฌํํ๊ธฐ ์ฝ๊ณ , ์ฌ์ํ ํด๊ฒฐ์ฑ ์ด ์๋ ์ ์ฉํ ํํ์ ํ์ตํ๋ ํน์ง์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ค๋ฅธ ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ ๋ ํฐ ๋ฐฐ์น๋ฅผ ์ฌ์ฉํ์ง ์์ผ๋ฉฐ, ์์ธก ๋คํธ์ํฌ, ๋ชจ๋ฉํ ์ธ์ฝ๋, ๋ฏธ๋ถ ๋ถ๊ฐ๋ฅํ ์ฐ์ฐ์ ๋๋ ๋ฏธ๋ถ ์ค๋จ๊ณผ ๊ฐ์ ๋น๋์นญ ๋ฉ์ปค๋์ฆ๋ ํ์ํ์ง ์์ต๋๋ค. ๋๋๊ฒ๋, "Barlow Twins"๋ ๋งค์ฐ ๊ณ ์ฐจ์ ์๋ฒ ๋ฉ์ ์ฌ์ฉ์์ ํฐ ์ด์ ์ ์ป์ ์ ์์ต๋๋ค. "Barlow Twins"๋ ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ImageNet์ ๋ฐ ์ง๋ ๋ถ๋ฅ ์์ ์์ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ, ์ ํ ๋ถ๋ฅ๊ธฐ ํค๋๋ฅผ ์ฌ์ฉํ ImageNet ๋ถ๋ฅ ๋ฐ ๊ฐ์ฒด ๊ฐ์ง์ ๋ค์ํ ์ ์ด ์์ ์์ ์ต์ ๊ธฐ์ ์์ค๊ณผ ๋น์ทํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ ๋๋ค.
2. Method
2.1 Description of Barlow Twin
Barlow Twins๋ ์๊ณก๋ ์ด๋ฏธ์ง์ ๋ํด์ joint embedding์ ์งํํฉ๋๋ค. ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ด ๊ณผ์ ์ ๋ํด์ ์ค๋ช ํด๋ณด๊ฒ ์ต๋๋ค.
์ผ๋จ, ์ฒ์์ผ๋ก ๋ฐ์ดํฐ์ ์ ๋ฐฐ์น X์ ๋ชจ๋ ์ด๋ฏธ์ง์ ๋ํด์ ์๊ณก๋ ๋ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํฉ๋๋ค. ์๊ณก๋ ์ด๋ฏธ์ง๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ์ป์ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ ์์ฑ๋ ๋๊ฐ์ ์ด๋ฏธ์ง ๋ฐฐ์น Y_a, Y_b๋ embed function์ ๋ค์ด Z_a, Z_b๋ฅผ ์์ฑํฉ๋๋ค. (์ฌ๊ธฐ์ Z_a, Z_b๋ batch๋ฅผ ์ถ์ผ๋ก ํ์ฌ ์ ๊ทํ ๋ output์ ๋๋ค.)
๊ทธ๋ฆฌ๊ณ Barlow Twins๋ ์๋์ Loss๋ฅผ ์ด์ฉํ์ฌ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ฅผ ์งํํฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ Loss์์ ๋ค์ด์๋ Cross-Correlation value C_ii ๋๋ C_ij๋ ์๋์ ๊ณผ์ ์ ํตํด์ ๊ณ์ฐ๋ฉ๋๋ค.
b์ ๊ฒฝ์ฐ, batch_sample์ ๊ฐ์๋ฅผ ๋ํ๋ด๊ณ , i์ j์ ๊ฒฝ์ฐ ๋ฒกํฐ์ ์ฐจ์์ ์๋ฏธํฉ๋๋ค. C๋ ๋คํธ์ํฌ ์ถ๋ ฅ ํฌ๊ธฐ์ ์น์๋ฅผ ๊ฐ์ง ์ ์ฌ๊ฐํ๋ ฌ์ด๋ฉฐ -1๊ณผ 1์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋๋ค.
์ง๊ด์ ์ผ๋ก, cross-correnlation matrix์ ๋๊ฐ์ ์์๋ฅผ 1๊ณผ ๋์ผํ๊ฒ ํ๋ ค๊ณ ํจ์ผ๋ก์จ input์ ์ ์ฉ๋ ์๊ณก์ ๋ํด์ ๋ถ๋ณํ๊ฒ ๋ง๋ค๊ฒ ๋ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋๊ฐ์ ์ ์์นํ ๊ฐ์ด ์๋ ์ค๋ณต์ ๋ํ๋ด์ง ์๋ ํญ์ 0์ผ๋ก ๋ง๋ค๊ฒ ํจ์ผ๋ก์จ ์๋ก ๋ค๋ฅธ ๋ฒกํฐ ๊ตฌ์ฑ ์์๋ฅผ ์๊ด์๊ฒ ๋ง๋ค๊ฒ ๋ฉ๋๋ค. ์ด๋ ๊ฒ ์๊ด ๊ด๊ณ๋ฅผ ์กฐ์ ํ๋ฉด ์ถ๋ ฅ ์ฅ์น ์ฌ์ด์ output์ ๋ํ ์ค๋ณต์ด ์ค์ด๋ค๊ฒ ๋ฉ๋๋ค.
๋ ํ์์ ์ผ๋ก "Barlow Twins"๋ ์ ๋ณด ์ด๋ก ์ ๊ด์ ์์ ์ดํด๊ฐ ๊ฐ๋ฅํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ์ ๋ณด ๋ณ๋ชฉ(Information Bottleneck, IB) ๋ชฉ์ ํจ์์ ์คํ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. Self-Supervised Learning์ ์ ์ฉ๋๋ IB ๋ชฉ์ ์ ์ํ์ ๋ํ ์ ๋ณด๋ฅผ ๊ฐ๋ฅํ ํ ๋ณด์กดํ๋ฉด์ ํด๋น ์ํ์ ์ ์ฉ๋ ๊ตฌ์ฒด์ ์ธ ์๊ณก์ ๋ํ ์ ๋ณด๋ฅผ ์ต์ํํ๋ ํํ์ ์ฐพ๋ ๊ฒ ์ ๋๋ค.
2.2 Implementation Details
Image Augmentation:
์ด๋ฏธ์ง ์ฆ๊ฐ์ ๋ค์์ ๋ฐ๋ฆ ๋๋ค.
random cropping, resizeing 224*224, horizental flipping, clolr jittering, converting to grayscale, Gaussian blurring, solarization์ ํฌํจํฉ๋๋ค.
์ฌ๊ธฐ์์ random cropping, resizeing 224*224์ ํญ์ ์ ์ฉ๋๋ฉฐ, ๋๋จธ์ง๋ ๋๋ค์ผ๋ก ์ ์ฉ๋ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํด๋น augmentation์ ํ ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๊ฒฝ์ฐ BYOL๊ณผ ๋์ผํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Architecture:
Encoder๋ ResNet-50(๋ง์ง๋ง ๋ถ๋ฅ Layer์ ์ธ)์ ์ฌ์ฉํ์์ผ๋ฉฐ ์ดํ(Decoder)์๋ Projector network๊ฐ ์กด์ฌํฉ๋๋ค. Projector ๋คํธ์ํฌ์๋ ๊ฐ๊ฐ 8192๊ฐ์ output unit์ด ์กด์ฌํ๋ 3๊ฐ์ Linear Layer๊ฐ ์กด์ฌํฉ๋๋ค. Projector์ ์ฒ์ ๋ ์ธต ๋ค์์๋ ๋ฐฐ์น ์ ๊ทํ ์ธต๊ณผ ReLU๊ฐ ์์ต๋๋ค.
์ฐ๋ฆฌ๋ Encoder์ ์ถ๋ ฅ์ 'representation'์ด๋ผ๊ณ ๋ถ๋ฅด๊ณ Projector์ ์ถ๋ ฅ์ 'embedding'์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. representation์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ์ฌ์ฉ๋๋ฉฐ, ์๋ฒ ๋ฉ์ Barlow Twins์ ์์ค ํจ์์ ์ฌ์ฉ๋ฉ๋๋ค.
Optimization:
์ด ๋ ผ๋ฌธ์์๋ BYOL์์ ๋ํ๋ธ ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ๊ณ , LARS ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ๋ค๊ณ ๋ฐํ๋๋ค.
์ด ์ฐ๊ตฌ์์๋ BYOL (Grill et al., 2020)์์ ์ค๋ช ๋ ์ต์ ํ ํ๋กํ ์ฝ์ ๋ฐ๋ฆ ๋๋ค. LARS optimizer (You et al., 2017)๋ฅผ ์ฌ์ฉํ๋ฉฐ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ 2048์ธ ์ํฉ์์ 1000 ์ํฌํฌ ๋์ ํ๋ จํฉ๋๋ค. ๊ทธ๋ฌ๋ Barlow Twins๋ 256๊ณผ ๊ฐ์ด ์์ ๋ฐฐ์น์์๋ ์ ์๋ํ๋ค๋ ๊ฒ์ ๊ฐ์กฐํฉ๋๋ค. ๊ฐ์ค์น์ ๋ํ ํ์ต๋ฅ ์ 0.2์ด๋ฉฐ, ํธํฅ๊ณผ ๋ฐฐ์น ์ ๊ทํ ๋งค๊ฐ๋ณ์์ ๋ํ ํ์ต๋ฅ ์ 0.0048์ ๋๋ค. ํ์ต๋ฅ ์ ๋ฐฐ์น ํฌ๊ธฐ๋ก ๊ณฑํ ํ 256์ผ๋ก ๋๋๋๋ค. Learning rate warmup์ 10 ์ํฌํฌ์ด๋ฉฐ, ๊ทธ ํ์๋ ์ฝ์ฌ์ธ ๊ฐ์ ์ค์ผ์ค์ ์ฌ์ฉํ์ฌ ํ์ต๋ฅ ์ 1000 ๋ฐฐ ๊ฐ์์ํต๋๋ค. ์์ค ํจ์์ trade-off ๋งค๊ฐ๋ณ์ λ์ ๋ํ ๊ฒ์์ ์ํํ๊ณ , λ = 5 × 10^(-3)์ผ ๋ ์ต์์ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค. ๊ฐ์ค์น ๊ฐ์ ๋งค๊ฐ๋ณ์๋ 1.5 × 10^(-6)์ ๋๋ค. ํธํฅ๊ณผ ๋ฐฐ์น ์ ๊ทํ ๋งค๊ฐ๋ณ์๋ LARS ์ ์ ๋ฐ ๊ฐ์ค์น ๊ฐ์ ์์ ์ ์ธ๋ฉ๋๋ค.
'๐ฅ๏ธ Computer Vision > ๐ฐ Paper' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Focal Loss (0) | 2023.08.24 |
---|---|
[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] DeepLab V3+ model (0) | 2023.08.01 |
[๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Keypoint-wise Adaptive Loss for Whole Body Human Pose Estimation (0) | 2023.05.29 |