์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ๋ฐ์ดํฐ ํ์ฑ
- LLaVA
- ํผ์ ํธ๋ก
- Cross Entropy Error
- multi-query
- visual instruction tuning
- fine tuning
- Time Series
- rrf
- ์์คํจ์
- leetcode
- ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง
- nlp
- ์๊ณ์ด
- rag parsing
- Non-Maximum Suppression
- ํ์ฑํ ํจ์
- deep learning
- ํ์ธํ๋
- pdf parsing
- rag-fusion
- anomaly detection
- qlora
- gemma3
- ๋ฅ๋ฌ๋
- LLM
- ์ด์ํ์ง
- Mean squared error
- ํ์ฑํํจ์
- ์ค์ฐจ์ญ์ ํ
- Today
- Total
Attention, Please!!!
[๊ฐ๋ ์ ๋ฆฌ] Diffusion Model ๋ณธ๋ฌธ
๐ก Diffusion Model ์ด๋?
2015๋ ๋์ “Deep Unsupervised Learning using Nonequilibrium Thermodynamics”์ด๋ผ๋ ๋ ผ๋ฌธ์ผ๋ก Diffusion Model์ด ์ฒ์์ผ๋ก ๋ฑ์ฅํ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ์๋ค์ Diffusion Model๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ค๋ช ํ์์ต๋๋ค.
The essential idea, inspired by non-equilibrium statistical physics, is to systematically and slowly destroy structure in a data distribution through an iterative forward diffusion process. We then learn a reverse diffusion process that restores structure in data, yielding a highly flexible and traceble generative model of the data.
๋ ผ๋ฌธ์์ ๋ฐ์ท๋ ๋ด์ฉ์ ๊ฐ๋ตํ๊ฒ ๋ฒ์ญํด ๋ณด์๋ฉด, forward diffusion process๋ฅผ ํตํด ๋ฐ์ดํฐ ๋ถํฌ์ ๊ตฌ์กฐ๋ฅผ ๋ณํ์ํค๊ณ , reserve diffusion process๋ฅผ ํตํด ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ๋ณต์ํ๋ ์์ ์ ๋๋ค. ์ด๋ฅผ ์กฐ๊ธ ๋ ์ง๊ด์ ์ผ๋ก ์๊ฐํด ๋ณด๋ฉด, ๋ ๊ฐ์ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ "์ ๋ ฅ ์ด๋ฏธ์ง"์ "๊ฒฐ๊ณผ ์ด๋ฏธ์ง"์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ ์ฌํ๊ฒ ๋ง๋๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
๐ Forward Diffusion Process
์ด๋ฏธ์ง \(x_{t-1}\)์ ๋ถ์ฐ \(\beta _{t}\)๋ฅผ ๊ฐ๋ ์๋์ Gaussian Noise๋ฅผ ์ถ๊ฐํ์ฌ ์๋ก์ด ์ด๋ฏธ์ง \(x_{t}\)๋ฅผ ์์ฑํ๋ ์กฐ๊ฑด๋ถ ํจ์\(q\left(x_{t}|x_{t-1}\right)\)๋ฅผ ์์ฑํ๊ฒ ๋ฉ๋๋ค. Diffusion Model์ ํน์ ์ํ(t-1)๊ฐ ํ์ฌ(t)์ ์ํ์ ์์กดํ๋ Markov(๋ง๋ฅด์ฝํ) ํน์ฑ์ ๊ฐ์ง๋๋ค. ์ด๋ฌํ ์ฑ์ง์ ์ํ์ ์ผ๋ก ํํํ๊ธฐ ์ํด ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด ์ฌ์ฉ๋๋๋ฐ, ์ด๋ฅผ ์๋์ ๊ฐ์ด ํํํ ์ ์์ต๋๋ค.
์ด๋ฌํ ํจ์๋ฅผ ์ง์์ ์ผ๋ก ์ ์ฉํ๋ฉด ์์ ๊ทธ๋ฆผ์ฒ๋ผ ์ก์์ด ์ ์ง์ ์ผ๋ก ์ปค์ง๋ ์ด๋ฏธ์ง ์ํธ์ค \(x_{o},...\ ,\ x_{T}\)๋ฅผ ์์ฑํ ์ ์๊ฒ ๋ฉ๋๋ค. Noise ์ฃผ์ ์ ๋ (\(\beta _{t}\)๊ฐ ๋ฌดํ๋๋ก ๊ฐ ๋, ์ต์ข ์ด๋ฏธ์ง (\(x_{T}\))๋ Isotropic Gaussian Distribution์์ ์ํ๋ง๋ ๊ฒ์ฒ๋ผ ์์ ํ ์ก์์ด ์๋ ์ด๋ฏธ์ง๊ฐ ์์ฑ์ด ๋ฉ๋๋ค. ๊ทธ๋ผ ์ต์ข ์ ์ผ๋ก Forward Process์ ์ ์ฒด์ ์ธ ๊ณผ์ ์ ์๋์ ์์์ฒ๋ผ ์ ์ํ ์ ์๊ฒ ๋ฉ๋๋ค.
์ด๋ (\x _{t}\)๋ ์๋์ ์์์ฒ๋ผ ํํํ ์ ์์ต๋๋ค.
๊ฐ ํ๊ท \(\mu =0\)์ด๊ณ ๋ถ์ฐ \(\sigma ^{2}=1\)์ธ ์ ๊ท๋ถํฌ์์ ์ํ๋ง๋ ๋๋ค ๋ณ์๋ผ๊ณ ๊ฐ์ ํ๊ฒ ์ต๋๋ค. ์ด์ ์๋ก์ด ๋ณ์ \(Y\ =\mu +\sigma x\)๋ฅผ ์ ์ํด ๋ด ์๋ค. Y์ ๊ธฐ๋๊ฐ๊ณผ ๋ถ์ฐ์ ํ์ธํด๋ณด๊ฒ ์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก Y๋ ํ๊ตฐ \(\mu \)์ด๊ณ ๋ถ์ฐ \(\sigma ^{2}\)๋ฅผ ๊ฐ๋ ๊ฐ์ฐ์์ ๋๋ค ๋ณ์์ ๋๋ค. ์ด์ ๋๊ฐ์ ์๋ฆฌ๋ฅผ ์ ์ฉํ๊ฒ ๋๋ฉด, (\x _{t}\)๋ ํ๊ท \(\sqrt{1-\beta _{t}}x_{t-1}\)์ด๊ณ ๋ถ์ฐ \(\beta _{t}\)๋ฅผ ๊ฐ์ง๋ ๊ฐ์ฐ์์ ๋๋ค ๋ณ์๋ผ๊ณ ์ ์ํ ์ ์๊ฒ ๋ฉ๋๋ค.
์์ ๊ณผ์ ์ ํตํด \(x_{t}\)๋ ํ๊ท ์ด 0์ด๊ณ ๋ถ์ฐ์ด 1์ธ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ฒ ๋ฉ๋๋ค. ์ด๋ ๋ชจ๋ t์ ๋ํด ๋์ผํ๊ฒ ์ ์ฉ๋๋ฏ๋ก, T๊ฐ ์ปค์ง์๋ก \(x_{0}\)๋ ํ์ค ๊ฐ์ฐ์ค ๋ถํฌ์ ์ ์ ๋ ๊ฐ๊น์์ง๊ฒ ๋ฉ๋๋ค. ์ด๋ ์ด๋ฏธ์ง ์ํ์ค๊ฐ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ ์ง์ ์ผ๋ก ์ ๊ทํ๋์ด ํ์ค ๊ฐ์ฐ์ค ๋ถํฌ์ ์๋ ดํ๊ฒ ๋ฉ๋๋ค.
โ๏ธ ์ฌ๋งค๊ฐ๋ณ์ํ ํธ๋ฆญ(Reparameterization Trick)
Diffusion Model์ Forward Process์ ๋ชฉํ๋ ์ ๋ ฅ ์ด๋ฏธ์ง \(x_{0}\)์ ์ ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ \(x_{T}\)์ ๋๋ฌํ๋ ๊ฒ ์ ๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ์๋์ ๊ฐ์ด ํํ์ด ๋ ์ ์๋ค๊ณ ์ ์ํ์์ต๋๋ค.
\(q\left(x_{t}|x_{t-1}\right)=N\left(x_{t};\sqrt {1-\beta _{t} x_{t-1}},\beta _{t} I\right)\)
์ฌ๊ธฐ์์ ์๊ฐํด๋ด์ผ ํ ๊ฒ ์์ต๋๋ค. ๋ง์ฝ q๋ฅผ t๋ฒ iterative ํ๊ฒ ์ ์ฉํ์ง ์๊ณ ์ด๋ฏธ์ง \(x_{0}\)์์ ์ก์์ด ์๋ ์ด๋ฏธ์ง \(x_{t}\)๋ก ๋ฐ๋ก ๊ฑด๋๋ธ ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ด ์๋ค๋ฉด, ๊ต์ฅํ ์ ์ฉํ ๊ฒ์ ๋๋ค. ์ด๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์ฌ๋งค๊ฐ๋ณ์ํ ํธ๋ฆญ(Reparameterization Trick)์ ๋๋ค.
์ฌ๋งค๊ฐ๋ณ์ํ ํธ๋ฆญ์ ์ฌ์ฉํ๋ฉด ์๋์ ๊ฐ์ด ์์์ ์ ๋ํ ์ ์์ต๋๋ค.
์์ ์ธ๊ธ๋ ๊ฒ์ฒ๋ผ, Diffusion Model์ ๋ง๋ฅด์ฝํ์ ํน์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ์กฐ๊ฑด๋ถ ์ํ๋ก ํํ์ด ๋๋ค๊ณ ํ์์ต๋๋ค. ์ด์ ์๋ก์ด ์ํ \(x_{t}\)๋ฅผ ์ด์ ์ํ \(x_{t-1}\)์ ์ก์ \(epsilon_{t-1}\)์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐฉ์ ์์ ์๋์ ๊ฐ์ด ์ ์ํ ์ ์์ผ๋ฉฐ, ์ฌ๊ธฐ์์ \(\beta _{t}\)๋ ์๊ฐ์ ๋ฐ๋ผ ๋ณํํ๋ ๊ฐ์ค์น๋ฅผ ๋ปํฉ๋๋ค.
์์ ๋ ์ฑ์ง์ ์๋์ ๊ฐ์ด ํ์ฅ์ํฌ ์ ์์ต๋๋ค.
๋นจ๊ฐ์ ์์์ ์์์ ์ ๊ท ๋ถํฌ์ ๊ฐ๋ฒ์ฑ์ ๋ฐ๋ผ ๋ ๋ฆฝ์ธ ๋ ํ๋ฅ ๋ณ์ X์ Y๋ฅผ ๋ํ๋ฉด \(Z\sim N\left(\mu _{x}+\mu _{y},\sigma _{x}^{2}+\sigma _{y}^{2}\right)\)์ผ๋ก ํํํ ์ ์์ต๋๋ค. ์ด๊ฒ์ ๋ํด ๊ตฌ์ฒด์ ์ผ๋ก ๊ถ๊ธํ์๋ค๋ฉด ์๋์ ์จ๊ธด ๊ธ์ ์ฐธ์กฐํด ์ฃผ์ธ์.

์ด๋ฌํ ์ํ์ ์ธ ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋๋ฉด, ์ ๋ ฅ ์ด๋ฏธ์ง \(x_{0}\)์ ์๋ฉด ํน์ ์ํ์ ๋ ธ์ด์ฆ๋ฅผ ํ์ ํ ์ ์์ต๋๋ค.
๐ Reverse Diffusion Process
Reverse Diffusion Process๋ gaussian noise๋ฅผ ์ ๊ฑฐํ๋ ๊ณผ์ ์ ๋๋ค. ๊ทธ๋ผ ์ ๋ฐฉํฅ ๊ณผ์ ์์์ ์กฐ๊ฑด๋ถ ํ๋ฅ \(q\left(x_{t}|x_{t-1}\right)\)๋ฅผ ์ฌ์ฉํ๋ ๊ฑฐ์ฒ๋ผ ์ญ๋ฐฉํฅ ๊ณผ์ ์์๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ ์ฉํ๋ฉด ๋ ๊น์?
๋ถ๊ฐ๋ฅํฉ๋๋ค. ์๋ํ๋ฉด ํ๋ฅ ๋ถํฌ๊ฐ ๊ณ์ฐํ๊ธฐ ์ด๋ ค์ด(intractable/uncomputable) ํํ๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ญ๋ฐฉํฅ ์กฐ๊ฑด๋ถ ํ๋ฅ \(q\left(x_{t-1}|x_{t}\right)\)๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์๋ ์ ์ฒด ์ ๋ฐฉํฅ ๊ณผ์ ์์ ์ถ์ฒ๋ ๋ชจ๋ Noise์ ์ํฅ์ ๋ฐ์ํด์ผ ํ๋๋ฐ ์ด๋ฌํ ๊ณผ์ ์ ์ํ์ ์ผ๋ก ๋งค์ฐ ๋ณต์กํ ๋ฌธ์ ์ ๋๋ค.
\(q\left(x_{t}|x_{t-1}\right)\)์ ์ญ๋ฐฉํฅ ๋ถํฌ๋ฅผ ๊ทผ์ฌํํ๋ ์ ๊ฒฝ๋ง \(p\theta \left(x_{t-1}|x_{t}\right)\)์ ํ์ตํด์ผ ํฉ๋๋ค. ์ด๋ \(p\theta \left(x_{t-1}|x_{t}\right)\)๋ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฉฐ, ํ๊ท ๊ณผ ๋ถ์ฐ์ ์๋์ ๊ฐ์ด ์ ์ํ ์ ์์ต๋๋ค.
์ญ๋ฐฉํฅ ๊ณผ์ ์์ ๋ชจ๋ธ \(p_{\theta }\)์ ํ์ตํ์ฌ ๊ฐ ๋จ๊ณ์์ Noise ์์ฑ ํ๋ฅ ๋ถํฌ Parameter์ธ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ์
๋ฐ์ดํธํ๋ฉฐ ํ์ต์ด ์งํํ๊ฒ ๋ฉ๋๋ค. ๊ฐ ๋จ๊ณ์์ ๋
ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๊ณ \(x_{t-1}\)๋ฅผ ์ถ์ ํ๊ฒ ๋๋๋ฐ, ์ด๋ ์์คํจ์๊ฐ ํ์ํ๊ฒ ๋ฉ๋๋ค. ๋ค์ ๊ฒ์๋ฌผ์์ ํ์ธํด์ฃผ์ธ์.
'Generative AI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๊ฐ๋ ์ ๋ฆฌ] Diffusion Model Loss Function (0) | 2024.06.15 |
---|