์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- ํ์ธํ๋
- rrf
- ์ด์ํ์ง
- rag parsing
- pdf parsing
- nlp
- multi-query
- ํ์ฑํ ํจ์
- Mean squared error
- ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง
- LLM
- anomaly detection
- ํ์ฑํํจ์
- gemma3
- ์๊ณ์ด
- Non-Maximum Suppression
- Cross Entropy Error
- ์ค์ฐจ์ญ์ ํ
- ํผ์ ํธ๋ก
- ๋ฐ์ดํฐ ํ์ฑ
- deep learning
- ๋ฅ๋ฌ๋
- rag-fusion
- ์์คํจ์
- visual instruction tuning
- fine tuning
- leetcode
- Time Series
- LLaVA
- qlora
- Today
- Total
Attention, Please!!!
[๊ฐ๋ ์ ๋ฆฌ] Diffusion Model ๋ณธ๋ฌธ
๐ก Diffusion Model ์ด๋?
2015๋ ๋์ โDeep Unsupervised Learning using Nonequilibrium Thermodynamicsโ์ด๋ผ๋ ๋ ผ๋ฌธ์ผ๋ก Diffusion Model์ด ์ฒ์์ผ๋ก ๋ฑ์ฅํ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ์๋ค์ Diffusion Model๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ค๋ช ํ์์ต๋๋ค.
The essential idea, inspired by non-equilibrium statistical physics, is to systematically and slowly destroy structure in a data distribution through an iterative forward diffusion process. We then learn a reverse diffusion process that restores structure in data, yielding a highly flexible and traceble generative model of the data.
๋ ผ๋ฌธ์์ ๋ฐ์ท๋ ๋ด์ฉ์ ๊ฐ๋ตํ๊ฒ ๋ฒ์ญํด ๋ณด์๋ฉด, forward diffusion process๋ฅผ ํตํด ๋ฐ์ดํฐ ๋ถํฌ์ ๊ตฌ์กฐ๋ฅผ ๋ณํ์ํค๊ณ , reserve diffusion process๋ฅผ ํตํด ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ๋ณต์ํ๋ ์์ ์ ๋๋ค. ์ด๋ฅผ ์กฐ๊ธ ๋ ์ง๊ด์ ์ผ๋ก ์๊ฐํด ๋ณด๋ฉด, ๋ ๊ฐ์ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ "์ ๋ ฅ ์ด๋ฏธ์ง"์ "๊ฒฐ๊ณผ ์ด๋ฏธ์ง"์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ ์ฌํ๊ฒ ๋ง๋๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
๐ Forward Diffusion Process

์ด๋ฏธ์ง xtโ1์ ๋ถ์ฐ ฮฒt๋ฅผ ๊ฐ๋ ์๋์ Gaussian Noise๋ฅผ ์ถ๊ฐํ์ฌ ์๋ก์ด ์ด๋ฏธ์ง xt๋ฅผ ์์ฑํ๋ ์กฐ๊ฑด๋ถ ํจ์q(xt|xtโ1)๋ฅผ ์์ฑํ๊ฒ ๋ฉ๋๋ค. Diffusion Model์ ํน์ ์ํ(t-1)๊ฐ ํ์ฌ(t)์ ์ํ์ ์์กดํ๋ Markov(๋ง๋ฅด์ฝํ) ํน์ฑ์ ๊ฐ์ง๋๋ค. ์ด๋ฌํ ์ฑ์ง์ ์ํ์ ์ผ๋ก ํํํ๊ธฐ ์ํด ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด ์ฌ์ฉ๋๋๋ฐ, ์ด๋ฅผ ์๋์ ๊ฐ์ด ํํํ ์ ์์ต๋๋ค.

์ด๋ฌํ ํจ์๋ฅผ ์ง์์ ์ผ๋ก ์ ์ฉํ๋ฉด ์์ ๊ทธ๋ฆผ์ฒ๋ผ ์ก์์ด ์ ์ง์ ์ผ๋ก ์ปค์ง๋ ์ด๋ฏธ์ง ์ํธ์ค xo,... , xT๋ฅผ ์์ฑํ ์ ์๊ฒ ๋ฉ๋๋ค. Noise ์ฃผ์ ์ ๋ (ฮฒt๊ฐ ๋ฌดํ๋๋ก ๊ฐ ๋, ์ต์ข ์ด๋ฏธ์ง (xT)๋ Isotropic Gaussian Distribution์์ ์ํ๋ง๋ ๊ฒ์ฒ๋ผ ์์ ํ ์ก์์ด ์๋ ์ด๋ฏธ์ง๊ฐ ์์ฑ์ด ๋ฉ๋๋ค. ๊ทธ๋ผ ์ต์ข ์ ์ผ๋ก Forward Process์ ์ ์ฒด์ ์ธ ๊ณผ์ ์ ์๋์ ์์์ฒ๋ผ ์ ์ํ ์ ์๊ฒ ๋ฉ๋๋ค.

์ด๋ (\x _{t}\)๋ ์๋์ ์์์ฒ๋ผ ํํํ ์ ์์ต๋๋ค.

๊ฐ ํ๊ท ฮผ=0์ด๊ณ ๋ถ์ฐ ฯ2=1์ธ ์ ๊ท๋ถํฌ์์ ์ํ๋ง๋ ๋๋ค ๋ณ์๋ผ๊ณ ๊ฐ์ ํ๊ฒ ์ต๋๋ค. ์ด์ ์๋ก์ด ๋ณ์ Y =ฮผ+ฯx๋ฅผ ์ ์ํด ๋ด ์๋ค. Y์ ๊ธฐ๋๊ฐ๊ณผ ๋ถ์ฐ์ ํ์ธํด๋ณด๊ฒ ์ต๋๋ค.

๊ฒฐ๊ณผ์ ์ผ๋ก Y๋ ํ๊ตฐ ฮผ์ด๊ณ ๋ถ์ฐ ฯ2๋ฅผ ๊ฐ๋ ๊ฐ์ฐ์์ ๋๋ค ๋ณ์์ ๋๋ค. ์ด์ ๋๊ฐ์ ์๋ฆฌ๋ฅผ ์ ์ฉํ๊ฒ ๋๋ฉด, (\x _{t}\)๋ ํ๊ท โ1โฮฒtxtโ1์ด๊ณ ๋ถ์ฐ ฮฒt๋ฅผ ๊ฐ์ง๋ ๊ฐ์ฐ์์ ๋๋ค ๋ณ์๋ผ๊ณ ์ ์ํ ์ ์๊ฒ ๋ฉ๋๋ค.
์์ ๊ณผ์ ์ ํตํด xt๋ ํ๊ท ์ด 0์ด๊ณ ๋ถ์ฐ์ด 1์ธ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ฒ ๋ฉ๋๋ค. ์ด๋ ๋ชจ๋ t์ ๋ํด ๋์ผํ๊ฒ ์ ์ฉ๋๋ฏ๋ก, T๊ฐ ์ปค์ง์๋ก x0๋ ํ์ค ๊ฐ์ฐ์ค ๋ถํฌ์ ์ ์ ๋ ๊ฐ๊น์์ง๊ฒ ๋ฉ๋๋ค. ์ด๋ ์ด๋ฏธ์ง ์ํ์ค๊ฐ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ ์ง์ ์ผ๋ก ์ ๊ทํ๋์ด ํ์ค ๊ฐ์ฐ์ค ๋ถํฌ์ ์๋ ดํ๊ฒ ๋ฉ๋๋ค.
โ๏ธ ์ฌ๋งค๊ฐ๋ณ์ํ ํธ๋ฆญ(Reparameterization Trick)
Diffusion Model์ Forward Process์ ๋ชฉํ๋ ์ ๋ ฅ ์ด๋ฏธ์ง x0์ ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ xT์ ๋๋ฌํ๋ ๊ฒ ์ ๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ์๋์ ๊ฐ์ด ํํ์ด ๋ ์ ์๋ค๊ณ ์ ์ํ์์ต๋๋ค.
q(xt|xtโ1)=N(xt;โ1โฮฒtxtโ1,ฮฒtI)
์ฌ๊ธฐ์์ ์๊ฐํด๋ด์ผ ํ ๊ฒ ์์ต๋๋ค. ๋ง์ฝ q๋ฅผ t๋ฒ iterative ํ๊ฒ ์ ์ฉํ์ง ์๊ณ ์ด๋ฏธ์ง x0์์ ์ก์์ด ์๋ ์ด๋ฏธ์ง xt๋ก ๋ฐ๋ก ๊ฑด๋๋ธ ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ด ์๋ค๋ฉด, ๊ต์ฅํ ์ ์ฉํ ๊ฒ์ ๋๋ค. ์ด๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์ฌ๋งค๊ฐ๋ณ์ํ ํธ๋ฆญ(Reparameterization Trick)์ ๋๋ค.
์ฌ๋งค๊ฐ๋ณ์ํ ํธ๋ฆญ์ ์ฌ์ฉํ๋ฉด ์๋์ ๊ฐ์ด ์์์ ์ ๋ํ ์ ์์ต๋๋ค.

์์ ์ธ๊ธ๋ ๊ฒ์ฒ๋ผ, Diffusion Model์ ๋ง๋ฅด์ฝํ์ ํน์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ์กฐ๊ฑด๋ถ ์ํ๋ก ํํ์ด ๋๋ค๊ณ ํ์์ต๋๋ค. ์ด์ ์๋ก์ด ์ํ xt๋ฅผ ์ด์ ์ํ xtโ1์ ์ก์ epsilontโ1์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐฉ์ ์์ ์๋์ ๊ฐ์ด ์ ์ํ ์ ์์ผ๋ฉฐ, ์ฌ๊ธฐ์์ ฮฒt๋ ์๊ฐ์ ๋ฐ๋ผ ๋ณํํ๋ ๊ฐ์ค์น๋ฅผ ๋ปํฉ๋๋ค.

์์ ๋ ์ฑ์ง์ ์๋์ ๊ฐ์ด ํ์ฅ์ํฌ ์ ์์ต๋๋ค.

๋นจ๊ฐ์ ์์์ ์์์ ์ ๊ท ๋ถํฌ์ ๊ฐ๋ฒ์ฑ์ ๋ฐ๋ผ ๋ ๋ฆฝ์ธ ๋ ํ๋ฅ ๋ณ์ X์ Y๋ฅผ ๋ํ๋ฉด ZโผN(ฮผx+ฮผy,ฯ2x+ฯ2y)์ผ๋ก ํํํ ์ ์์ต๋๋ค. ์ด๊ฒ์ ๋ํด ๊ตฌ์ฒด์ ์ผ๋ก ๊ถ๊ธํ์๋ค๋ฉด ์๋์ ์จ๊ธด ๊ธ์ ์ฐธ์กฐํด ์ฃผ์ธ์.

์ด๋ฌํ ์ํ์ ์ธ ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋๋ฉด, ์ ๋ ฅ ์ด๋ฏธ์ง x0์ ์๋ฉด ํน์ ์ํ์ ๋ ธ์ด์ฆ๋ฅผ ํ์ ํ ์ ์์ต๋๋ค.

๐ Reverse Diffusion Process

Reverse Diffusion Process๋ gaussian noise๋ฅผ ์ ๊ฑฐํ๋ ๊ณผ์ ์ ๋๋ค. ๊ทธ๋ผ ์ ๋ฐฉํฅ ๊ณผ์ ์์์ ์กฐ๊ฑด๋ถ ํ๋ฅ q(xt|xtโ1)๋ฅผ ์ฌ์ฉํ๋ ๊ฑฐ์ฒ๋ผ ์ญ๋ฐฉํฅ ๊ณผ์ ์์๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ ์ฉํ๋ฉด ๋ ๊น์?
๋ถ๊ฐ๋ฅํฉ๋๋ค. ์๋ํ๋ฉด ํ๋ฅ ๋ถํฌ๊ฐ ๊ณ์ฐํ๊ธฐ ์ด๋ ค์ด(intractable/uncomputable) ํํ๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ญ๋ฐฉํฅ ์กฐ๊ฑด๋ถ ํ๋ฅ q(xtโ1|xt)๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์๋ ์ ์ฒด ์ ๋ฐฉํฅ ๊ณผ์ ์์ ์ถ์ฒ๋ ๋ชจ๋ Noise์ ์ํฅ์ ๋ฐ์ํด์ผ ํ๋๋ฐ ์ด๋ฌํ ๊ณผ์ ์ ์ํ์ ์ผ๋ก ๋งค์ฐ ๋ณต์กํ ๋ฌธ์ ์ ๋๋ค.
q(xt|xtโ1)์ ์ญ๋ฐฉํฅ ๋ถํฌ๋ฅผ ๊ทผ์ฌํํ๋ ์ ๊ฒฝ๋ง pฮธ(xtโ1|xt)์ ํ์ตํด์ผ ํฉ๋๋ค. ์ด๋ pฮธ(xtโ1|xt)๋ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฉฐ, ํ๊ท ๊ณผ ๋ถ์ฐ์ ์๋์ ๊ฐ์ด ์ ์ํ ์ ์์ต๋๋ค.

์ญ๋ฐฉํฅ ๊ณผ์ ์์ ๋ชจ๋ธ pฮธ์ ํ์ตํ์ฌ ๊ฐ ๋จ๊ณ์์ Noise ์์ฑ ํ๋ฅ ๋ถํฌ Parameter์ธ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ์
๋ฐ์ดํธํ๋ฉฐ ํ์ต์ด ์งํํ๊ฒ ๋ฉ๋๋ค. ๊ฐ ๋จ๊ณ์์ ๋
ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๊ณ xtโ1๋ฅผ ์ถ์ ํ๊ฒ ๋๋๋ฐ, ์ด๋ ์์คํจ์๊ฐ ํ์ํ๊ฒ ๋ฉ๋๋ค. ๋ค์ ๊ฒ์๋ฌผ์์ ํ์ธํด์ฃผ์ธ์.
'Generative AI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๊ฐ๋ ์ ๋ฆฌ] Diffusion Model Loss Function (0) | 2024.06.15 |
---|