MewwSikk
article thumbnail

์ด๋ฒˆ ํฌ์ŠคํŠธ์—์„œ๋Š” Object Detection์„ ์ง„ํ–‰ํ•  ๋•Œ ํ”„๋ ˆ์ž„ ๊ฐ„ ๊ฐ์ฒด๊ฐ€ ๋™์ผํ•œ ๊ฐ์ฒด์ธ์ง€ ์•„๋‹Œ์ง€์— ๋Œ€ํ•œ ํŒ๋‹จ์„ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ธ Barlow Twins๋ผ๋Š” ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋…ผ๋ฌธ๋ฆฌ๋ทฐ๋ฅผ ์ง„ํ–‰ํ•ด ๋ณด๋ ค ํ•ฉ๋‹ˆ๋‹ค. 

๋ณด์™„ํ•  ๋ถ€๋ถ„์ด ์žˆ๋‹ค๋ฉด ๋Œ“๊ธ€์— ์ฒจ์–ธํ•ด ์ฃผ์‹œ๋ฉด ๊ฐ์‚ฌํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

๋…ผ๋ฌธ ๋งํฌ: https://arxiv.org/abs/2103.03230


Abstraction

 

Self-Supervised Learning(SSL)์€ ์ž…๋ ฅ ์ƒ˜ํ”Œ์„ ์™œ๊ณกํ–ˆ์„ ๋•Œ, ๊ทธ๋Ÿฐ ์™œ๊ณก์— ๋Œ€ํ•œ ๋ถˆ๋ณ€ํ•œ ์ž„๋ฒ ๋”ฉ์„ ๋งŒ๋“ฆ์œผ๋กœ์จ Supervised Learning๊ณผ์˜ ๊ฒฉ์ฐจ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ค„์—ฌ๊ฐ€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. (SSL์ด๋ž€ ์ •๋‹ต ๋ฐ์ดํ„ฐ ์—†์ด, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๊ธฐ๋ฒ•์„ ๋งํ•ฉ๋‹ˆ๋‹ค.) ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฐ ์ ‘๊ทผ๋ฒ•์˜ ๋ฐ˜๋ณต๋˜๋Š” ๋ฌธ์ œ๋Š” ํŠน์ • ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ๋™์ผํ•œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ "ํ•™์Šต"ํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•˜์—ฌ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ƒ˜ํ”Œ์˜ ์™œ๊ณก๋œ ๋ฒ„์ „์œผ๋กœ ๊ณต๊ธ‰๋œ ๋‘ ๊ฐœ์˜ ๋™์ผํ•œ ๋„คํŠธ์›Œํฌ์˜ ์ถœ๋ ฅ ์‚ฌ์ด์˜ ๊ต์ฐจ ์ƒ๊ด€ ํ–‰๋ ฌ์„ ์ธก์ •ํ•˜๊ณ  ๊ฐ€๋Šฅํ•œ ํ•œ ๋™์ผํ•œ ํ–‰๋ ฌ์— ๊ฐ€๊น๊ฒŒ ๋งŒ๋“ฆ์œผ๋กœ์จ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ถ•๊ดด๋ฅผ ํ”ผํ•  ์ˆ˜ ์žˆ๋Š” ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.  ๊ฒฐ๋ก ์ ์œผ๋กœ ์ด๋Ÿฌํ•œ ๊ณผ์ •์„ ํ†ตํ•ด ์™œ๊ณก๋œ ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ์ตœ์†Œํ™”๋œ embedding vector๋ฅผ ์ƒ์„ฑํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์‹ ๊ฒฝ๊ณผํ•™์ž H. Barlow์˜ redundancy-reduction(์ค‘๋ณต ๊ฐ์†Œ) ์›๋ฆฌ๊ฐ€ ๋™์ผํ•œ ๋„คํŠธ์›Œํฌ ์Œ์— ์ ์šฉ๋˜๊ธฐ ๋•Œ๋ฌธ์— Barlow Twins๋ผ๊ณ  ๋ถˆ๋ฆฝ๋‹ˆ๋‹ค. Barlow Twins๋Š” ํฐ ๋ฐฐ์น˜๋ฅผ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š์œผ๋ฉฐ, ๋„คํŠธ์›Œํฌ ์Œ ์‚ฌ์ด์˜ ์˜ˆ์ธก์ž ๋„คํŠธ์›Œํฌ, ๊ธฐ์šธ๊ธฐ ์ค‘๋‹จ, ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ์˜ ์ด๋™ ํ‰๊ท ๊ณผ ๊ฐ™์€ ๋น„๋Œ€์นญ์„ฑ ๋˜ํ•œ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กญ๊ฒŒ๋„ Barlow Twins๋Š” ๊ณ ์ฐจ์›์˜ ์ถœ๋ ฅ ๋ฒกํ„ฐ์—์„œ ์ด์ต์„ ์–ป์Šต๋‹ˆ๋‹ค. ์ด ์˜๋ฏธ๋Š” ๋†’์€ ์ฐจ์›์˜ ํŠน์„ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ณ  ๋ชจ๋ธ์„ ํ•™์Šตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. 

Barlow Twins architectrue


1. Introduction

SSL์€ ์ธ๊ฐ„์˜ ๊ฐœ์ž… ์—†์ด input data๋กœ๋ถ€ํ„ฐ ์˜๋ฏธ์žˆ๋Š” ์ •๋ณด๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” ์ ์— ์ดˆ์ ์„ ๋‘” ํ•™์Šต ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. Computer Vision์—์„œ๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์„ ์ง„ํ–‰ํ•˜์˜€์„ ๋•Œ ๋ถˆ๋ณ€ํ•˜๋Š” ํ‘œํ˜„์— ๋Œ€ํ•ด์„œ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ํ•˜๋‚˜์˜ ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ์™œ๊ณก ๋ฒ„์ „์„ ํ†ตํ•ด ์–ป์€ ํ‘œํ˜„๋“ค์˜ ์œ ์‚ฌ์„ฑ์„ ์ตœ๋Œ€ํ™”ํ•˜์—ฌ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋‹ค์–‘ํ•œ Simese ๋„คํŠธ์›Œํฌ์˜ ๋ณ€ํ˜•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฐ ๋ฌธ์ œ์—์„œ๋Š” ์ƒ์ˆ˜ ํ‘œํ˜„๊ณผ ๊ฐ™์€ ์‚ฌ์†Œํ•œ ํ•ด๊ฒฐ์ฑ…์ด ์žˆ๊ณ  ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ ์œ ์šฉํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค. 

 

SIMCLR๊ณผ ๊ฐ™์€ ๋Œ€์กฐ์ ์ธ ๋ฐฉ๋ฒ•์€ loss์—์„œ ๋‹ค๋ฅด๊ฒŒ ์ ์šฉ๋˜๋Š” 'positive'์™€ 'negative' sample์„ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ ๊ทธ๋“ค์€ ํ•™์Šต ๊ณผ์ •์—์„œ 'positive pair'์™€ 'negative pair'๊ฐ„์˜ ํ•™์Šต ์—…๋ฐ์ดํŠธ๋ฅผ ๋‹ค๋ฅด๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋Š” ๋น„๋Œ€์นญ ํ•™์Šต ์—…๋ฐ์ดํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. 

DEEPCLUSTER, SWAV, SELA์™€ ๊ฐ™์€ ๊ตฐ์ง‘ํ™” ๋ฐฉ๋ฒ•์€ ์™œ๊ณก๋œ ์ƒ˜ํ”Œ ์ค‘ ํ•˜๋‚˜๋ฅผ ์ด์šฉํ•˜์—ฌ ์†์‹ค์˜ 'target'์„ ๊ณ„์‚ฐํ•˜๊ณ , ๋‹ค๋ฅธ ์™œ๊ณก๋œ ์ƒ˜ํ”Œ ๋ฒ„์ „์„ ์ด์šฉํ•˜์—ฌ ์ด๋Ÿฌํ•œ ํƒ€๊ฒŸ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ดํ›„, K-means๋‚˜ ๋ฏธ๋ถ„ ๋ถˆ๊ฐ€๋Šฅํ•œ ์—ฐ์‚ฐ์ž์™€ ๊ฐ™์€ ๋Œ€์ฒด ์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ์ด์šฉํ•ฉ๋‹ˆ๋‹ค. 

BYOL ๋ฐ SIMSIAM์€ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ์™€ ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ๋ฅผ ์ˆ˜์ •ํ•˜์—ฌ ๋น„๋Œ€์นญ์„ฑ์„ ๋„์ž…ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ์ˆ˜์ •ํ•˜์—ฌ 'predictor' ๋„คํŠธ์›Œํฌ๋ฅผ ๋„์ž…ํ•˜๊ณ , ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ๋ฅผ ๋น„๋Œ€์นญ์ ์œผ๋กœ ์กฐ์ •ํ•˜์—ฌ ์ž…๋ ฅ์˜ ํ•œ ์™œ๊ณก ๋ฒ„์ „๋งŒ์„ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๊ณ , ๋‹ค๋ฅธ ์™œ๊ณก ๋ฒ„์ „์˜ ํ‘œํ˜„์„ ๊ณ ์ •๋œ ํƒ€๊ฒŸ์œผ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.  

 

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์ธ "Barlow Twins"๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์ด ๋ฐฉ๋ฒ•์€ ์‹ ๊ฒฝ ๊ณผํ•™์—์„œ ์ฒ˜์Œ ์ œ์•ˆ๋œ ์ค‘๋ณต ์ œ๊ฑฐ ์›์น™์„ ์ž๊ฐ€ ๊ฐ๋… ํ•™์Šต์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์‹ ๊ฒฝ๊ณผํ•™์ž H. Barlow๋Š” ์˜ํ–ฅ๋ ฅ ์žˆ๋Š” ๋…ผ๋ฌธ "Possible Principles Underlying the Transformation of Sensory Messages"์—์„œ ๊ฐ๊ฐ ๋ฉ”์‹œ์ง€์˜ ๋ณ€ํ™˜์— ๊ธฐ๋ฐ˜ํ•œ ์›์น™์œผ๋กœ ์ค‘๋ณต ์ œ๊ฑฐ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ์›์น™์€ ๊ฐ๊ฐ์ ์ธ ์ž…๋ ฅ์„ ํ†ต๊ณ„์ ์œผ๋กœ ๋…๋ฆฝ๋œ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๊ฐ€์ง„ ์ธ์ˆ˜ ์ฝ”๋“œ๋กœ ๋‹ค์‹œ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๊ฒƒ์ด ๊ฐ๊ฐ ์ฒ˜๋ฆฌ์˜ ๋ชฉํ‘œ๋ผ๊ณ  ๊ฐ€์„ค์„ ์„ธ์› ์Šต๋‹ˆ๋‹ค. ์ด ์›์น™์€ ์‹œ๊ฐ ์ฒด๊ณ„์˜ ๊ตฌ์กฐ๋ฅผ ์„ค๋ช…ํ•˜๋Š”๋ฐ ์œ ์šฉํ•˜๋ฉฐ, ์ด๊ฒƒ์€ ๋ง๋ง‰์—์„œ ํ”ผ์งˆ ์˜์—ญ๊นŒ์ง€์˜ ์กฐ์ง์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์ด ์›์น™์€ ๊ฐ๋… ๋ฐ ๋น„๊ฐ๋… ํ•™์Šต์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ์ด์–ด์กŒ์Šต๋‹ˆ๋‹ค. 

 

์ด ์›์น™์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ์ด ๋…ผ๋ฌธ์€ "Barlow Twins"๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋™์ผํ•œ ๋ชจ๋ธ์—์„œ ๊ณ„์‚ฐ๋œ ๊ต์ฐจ ์ƒ๊ด€ ํ–‰๋ ฌ์„ ๋‹จ์œ„ ํ–‰๋ ฌ์— ๊ฐ€๊น๊ฒŒ ๋งŒ๋“œ๋Š” ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. "Barlow Twins"๋Š” ๊ฐœ๋…์ ์œผ๋กœ ๊ฐ„๋‹จํ•˜๋ฉฐ, ๊ตฌํ˜„ํ•˜๊ธฐ ์‰ฝ๊ณ , ์‚ฌ์†Œํ•œ ํ•ด๊ฒฐ์ฑ…์ด ์•„๋‹Œ ์œ ์šฉํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ํฐ ๋ฐฐ์น˜๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์˜ˆ์ธก ๋„คํŠธ์›Œํฌ, ๋ชจ๋ฉ˜ํ…€ ์ธ์ฝ”๋”, ๋ฏธ๋ถ„ ๋ถˆ๊ฐ€๋Šฅํ•œ ์—ฐ์‚ฐ์ž ๋˜๋Š” ๋ฏธ๋ถ„ ์ค‘๋‹จ๊ณผ ๊ฐ™์€ ๋น„๋Œ€์นญ ๋ฉ”์ปค๋‹ˆ์ฆ˜๋„ ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋†€๋ž๊ฒŒ๋„, "Barlow Twins"๋Š” ๋งค์šฐ ๊ณ ์ฐจ์› ์ž„๋ฒ ๋”ฉ์˜ ์‚ฌ์šฉ์—์„œ ํฐ ์ด์ ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. "Barlow Twins"๋Š” ์ € ๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ImageNet์˜ ๋ฐ˜ ์ง€๋„ ๋ถ„๋ฅ˜ ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ, ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•œ ImageNet ๋ถ„๋ฅ˜ ๋ฐ ๊ฐ์ฒด ๊ฐ์ง€์˜ ๋‹ค์–‘ํ•œ ์ „์ด ์ž‘์—…์—์„œ ์ตœ์‹  ๊ธฐ์ˆ  ์ˆ˜์ค€๊ณผ ๋น„์Šทํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. 


2. Method

2.1 Description of Barlow Twin

Barlow Twins๋Š” ์™œ๊ณก๋œ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ joint embedding์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋” ๊ตฌ์ฒด์ ์œผ๋กœ ์ด ๊ณผ์ •์— ๋Œ€ํ•ด์„œ ์„ค๋ช…ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์ผ๋‹จ, ์ฒ˜์Œ์œผ๋กœ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ฐฐ์น˜ X์˜ ๋ชจ๋“  ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ ์™œ๊ณก๋œ ๋‘ ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์™œ๊ณก๋œ ์ด๋ฏธ์ง€๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๋ถ„ํฌ๋ฅผ ์ด์šฉํ•˜์—ฌ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ƒ์„ฑ๋œ ๋‘๊ฐœ์˜ ์ด๋ฏธ์ง€ ๋ฐฐ์น˜ Y_a, Y_b๋Š” embed function์— ๋“ค์–ด Z_a, Z_b๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.  (์—ฌ๊ธฐ์„œ Z_a, Z_b๋Š” batch๋ฅผ ์ถ•์œผ๋กœ ํ•˜์—ฌ ์ •๊ทœํ™” ๋œ output์ž…๋‹ˆ๋‹ค.)

 

๊ทธ๋ฆฌ๊ณ  Barlow Twins๋Š” ์•„๋ž˜์˜ Loss๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. 

๊ทธ๋ฆฌ๊ณ  Loss์•ˆ์— ๋“ค์–ด์žˆ๋Š” Cross-Correlation value C_ii ๋˜๋Š” C_ij๋Š” ์•„๋ž˜์˜ ๊ณผ์ •์„ ํ†ตํ•ด์„œ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. 

b์˜ ๊ฒฝ์šฐ, batch_sample์˜ ๊ฐœ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , i์™€ j์˜ ๊ฒฝ์šฐ ๋ฒกํ„ฐ์˜ ์ฐจ์›์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. C๋Š” ๋„คํŠธ์›Œํฌ ์ถœ๋ ฅ ํฌ๊ธฐ์˜ ์น˜์ˆ˜๋ฅผ ๊ฐ€์ง„ ์ •์‚ฌ๊ฐํ–‰๋ ฌ์ด๋ฉฐ -1๊ณผ 1์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

 

์ง๊ด€์ ์œผ๋กœ, cross-correnlation matrix์˜ ๋Œ€๊ฐ์„  ์š”์†Œ๋ฅผ 1๊ณผ ๋™์ผํ•˜๊ฒŒ ํ•˜๋ ค๊ณ  ํ•จ์œผ๋กœ์จ input์„ ์ ์šฉ๋œ ์™œ๊ณก์— ๋Œ€ํ•ด์„œ ๋ถˆ๋ณ€ํ•˜๊ฒŒ ๋งŒ๋“ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋Œ€๊ฐ์„ ์— ์œ„์น˜ํ•œ ๊ฐ’์ด ์•„๋‹Œ ์ค‘๋ณต์„ ๋‚˜ํƒ€๋‚ด์ง€ ์•Š๋Š” ํ•ญ์€ 0์œผ๋กœ ๋งŒ๋“ค๊ฒŒ ํ•จ์œผ๋กœ์จ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฒกํ„ฐ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์ƒ๊ด€์—†๊ฒŒ ๋งŒ๋“ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ์กฐ์ •ํ•˜๋ฉด ์ถœ๋ ฅ ์žฅ์น˜ ์‚ฌ์ด์˜ output์— ๋Œ€ํ•œ ์ค‘๋ณต์ด ์ค„์–ด๋“ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Algorithm of Barlow Twins

๋” ํ˜•์‹์ ์œผ๋กœ "Barlow Twins"๋Š” ์ •๋ณด ์ด๋ก ์˜ ๊ด€์ ์—์„œ ์ดํ•ด๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ ์ •๋ณด ๋ณ‘๋ชฉ(Information Bottleneck, IB) ๋ชฉ์  ํ•จ์ˆ˜์˜ ์‹คํ˜„์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Self-Supervised Learning์— ์ ์šฉ๋˜๋Š” IB ๋ชฉ์ ์€ ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๊ฐ€๋Šฅํ•œ ํ•œ ๋ณด์กดํ•˜๋ฉด์„œ ํ•ด๋‹น ์ƒ˜ํ”Œ์— ์ ์šฉ๋œ ๊ตฌ์ฒด์ ์ธ ์™œ๊ณก์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ํ‘œํ˜„์„ ์ฐพ๋Š” ๊ฒƒ ์ž…๋‹ˆ๋‹ค. 

 

2.2 Implementation Details

Image Augmentation:

์ด๋ฏธ์ง€ ์ฆ๊ฐ•์€ ๋‹ค์Œ์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

 

random cropping, resizeing 224*224, horizental flipping, clolr jittering, converting to grayscale, Gaussian blurring, solarization์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. 

 

์—ฌ๊ธฐ์—์„œ random cropping, resizeing 224*224์€ ํ•ญ์ƒ ์ ์šฉ๋˜๋ฉฐ, ๋‚˜๋จธ์ง€๋Š” ๋žœ๋ค์œผ๋กœ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ•ด๋‹น augmentation์„ ํ•  ๋•Œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฒฝ์šฐ BYOL๊ณผ ๋™์ผํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. 

 

Architecture:

Encoder๋Š” ResNet-50(๋งˆ์ง€๋ง‰ ๋ถ„๋ฅ˜ Layer์ œ์™ธ)์„ ์‚ฌ์šฉํ•˜์˜€์œผ๋ฉฐ ์ดํ›„(Decoder)์—๋Š” Projector network๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. Projector ๋„คํŠธ์›Œํฌ์—๋Š” ๊ฐ๊ฐ 8192๊ฐœ์˜ output unit์ด ์กด์žฌํ•˜๋Š” 3๊ฐœ์˜ Linear Layer๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. Projector์˜ ์ฒ˜์Œ ๋‘ ์ธต ๋‹ค์Œ์—๋Š” ๋ฐฐ์น˜ ์ •๊ทœํ™” ์ธต๊ณผ ReLU๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

์šฐ๋ฆฌ๋Š” Encoder์˜ ์ถœ๋ ฅ์„ 'representation'์ด๋ผ๊ณ  ๋ถ€๋ฅด๊ณ  Projector์˜ ์ถœ๋ ฅ์„ 'embedding'์ด๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค. representation์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ์‚ฌ์šฉ๋˜๋ฉฐ, ์ž„๋ฒ ๋”ฉ์€ Barlow Twins์˜ ์†์‹ค ํ•จ์ˆ˜์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. 

 

Optimization:

์ด ๋…ผ๋ฌธ์—์„œ๋Š” BYOL์—์„œ ๋‚˜ํƒ€๋‚ธ ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ์‚ฌ์šฉํ–ˆ๊ณ , LARS ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค๊ณ  ๋ฐํž™๋‹ˆ๋‹ค. 

 

์ด ์—ฐ๊ตฌ์—์„œ๋Š” BYOL (Grill et al., 2020)์—์„œ ์„ค๋ช…๋œ ์ตœ์ ํ™” ํ”„๋กœํ† ์ฝœ์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค. LARS optimizer (You et al., 2017)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ ๋ฐฐ์น˜ ํฌ๊ธฐ๊ฐ€ 2048์ธ ์ƒํ™ฉ์—์„œ 1000 ์—ํฌํฌ ๋™์•ˆ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Barlow Twins๋Š” 256๊ณผ ๊ฐ™์ด ์ž‘์€ ๋ฐฐ์น˜์—์„œ๋„ ์ž˜ ์ž‘๋™ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์ค‘์น˜์— ๋Œ€ํ•œ ํ•™์Šต๋ฅ ์€ 0.2์ด๋ฉฐ, ํŽธํ–ฅ๊ณผ ๋ฐฐ์น˜ ์ •๊ทœํ™” ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ํ•™์Šต๋ฅ ์€ 0.0048์ž…๋‹ˆ๋‹ค. ํ•™์Šต๋ฅ ์€ ๋ฐฐ์น˜ ํฌ๊ธฐ๋กœ ๊ณฑํ•œ ํ›„ 256์œผ๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค. Learning rate warmup์€ 10 ์—ํฌํฌ์ด๋ฉฐ, ๊ทธ ํ›„์—๋Š” ์ฝ”์‚ฌ์ธ ๊ฐ์†Œ ์Šค์ผ€์ค„์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋ฅ ์„ 1000 ๋ฐฐ ๊ฐ์†Œ์‹œํ‚ต๋‹ˆ๋‹ค. ์†์‹ค ํ•จ์ˆ˜์˜ trade-off ๋งค๊ฐœ๋ณ€์ˆ˜ λ์— ๋Œ€ํ•œ ๊ฒ€์ƒ‰์„ ์ˆ˜ํ–‰ํ–ˆ๊ณ , λ = 5 × 10^(-3)์ผ ๋•Œ ์ตœ์ƒ์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ€์ค‘์น˜ ๊ฐ์‡  ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” 1.5 × 10^(-6)์ž…๋‹ˆ๋‹ค. ํŽธํ–ฅ๊ณผ ๋ฐฐ์น˜ ์ •๊ทœํ™” ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” LARS ์ ์‘ ๋ฐ ๊ฐ€์ค‘์น˜ ๊ฐ์‡ ์—์„œ ์ œ์™ธ๋ฉ๋‹ˆ๋‹ค.

profile

MewwSikk

@Mu Gyum

ํฌ์ŠคํŒ…์ด ์ข‹์•˜๋‹ค๋ฉด "์ข‹์•„์š”โค๏ธ" ๋˜๋Š” "๊ตฌ๋…๐Ÿ‘๐Ÿป" ํ•ด์ฃผ์„ธ์š”!