Stable Diffusion 을 이해해보자.

티스토리 뷰

아인샴 2023. 4. 12. 16:32

해당 영상을 기준으로 부족한 개념을 채워보자. 다 채울 수는 없겠지만 늘 그렇듯이 조금씩 뭔가를 넣으면 채워지겠지?

-대략 머릿 속(검증되지 않음)

Latent space : 특징을 표현하는 공간
latent vector : 그 공간에서 하나 뽑아낸 벡터
가우시안에 임의의 노이즈를 넣어줘서 가우시안보다 +a 정도 나은 성능이 나옴 (왜그런지는 모름)
VAE는 기존의 AE가 이산적인 방식으로 정해진 input에 대해서만 기능하도록 만들어졌다면 VAE는 드디어 z라는 분포를 통해 연속적이고도 input 의존적인 방식으로 생성을 시작한다고 들었음.
- (update) : latent space 인 z 에서 x를 생성해내는 조건부 확률을 최대화 시키는 방식
  - Z로 부터 x가 나타낼 확률 MLE(Maximum Likelihood Estimation) 을 최대화 시키자 -> 어떻게? -> loss는 cross-entropy 로 연산 할거임

-동영상 보면서 이해한 것

Diffusion Process : AE 가 노이즈를 한 번에 더했다면 확산 방식은 노이즈 더하는 것에 step을 줬다.
Forward Diffusion Process -> Reverse Trajectory
- B_t가 작다면 reverse diffusion process 할때도 비슷할 꺼야 -> t가 아니라 B_t 노이즈 크기 자체를 말하는 것 같음 뭔 말이냐면 기존분포 + a 를 하는 형태가 output 이고 기존이 input 인데 a가 작으면 output ==input이란 뜻.
논문 :
- 목표 : Diffusion Model 은 연산 cost 가 너무커요. 50k 샘플 추론에만 A100 1대 5일입니다. DM 성능챙기고 연산량을 줄입시다.
- 내용 : less agressive downsampling : downsampling 얼마 안하고도 성능이 좋아!
- FID : Frenchet Inception Distance
  - Inception-V3 모델을 feature extractor 로 사용해 gt_image - generated_image 의 activation map 추출
- method
- 전개(구조설명) :
  - AE(빨강)를 학습한다. 그 외에 step마다 Unet 구조를 학습(녹색 안에 denoising Unet 부분 )
  - 이런걸 latent 공간에서 학습을 진행하는 Latent Diffusion Moedels(LDMs)
  - 결국 연산량은 pixel space에서 발생하는데 이를 latent 공간에 옮겨서 진행하니 cost 가 많이 줄었다!
  - 결과적으로 봐서도 semantic 한 포인트에 좀 더 집중할 수 있었다.

method
- perceptual loss : feature map마다 거리 계산
- Patch based adversarial objective : 전체적인 이미지를 한번에 비교하는 것이 아니라 patch 단위로 비교하는 방식 -local realism 을 확인 할 수 있음 : 주석에 patch GAN이라는 이름으로 등록되어있다고 함.
- L1,L2 loss 처럼 픽셀단위 loss 를 사용할 때는 blurriness 현상이 발생하는데 이를 완화시킴 (왜인지는 모름)
- loss자체는 GAN에서 많이 사용하고 있다고 한다.

-조사가 필요한 키워드

Reparametrization trick
Kullback-Leiber divergence
Deep Unsupervised Learning using Nonequilibrium Thermodynamics
1. Markov Diffusion Kernel : B_t : diffusion 의 노이즈 더하는 횟수를 t step 으로 나눔
Binomial 이나 Gaussian 의 경우 : 바이노미얼이 머지 바이노미얼 펑션 말 자주 들었음
GVD
1. GAN
2. VAE
3. Flow-based model
4. Diffusion models
latent variable
1. GPT 한테 space vector variable을 물어보니 space는 이지 데이터 특징을 표현하는 공간이고(이미지압축이 비가시적인형태로 되었다고 봄), vector는 space에서 추출한 특징 정보를 담고 있어서.. 내가 배운 것이 맞게 적용된다면 random process에서 뽑하낸 하나의 랜덤 function 이라는 추측을 하고 있다.
Unet : 유넷 논문을 제대로 본 적이 없음 네트워크가 유자구조 segmenation 라는 것은 알고 있다. 근데 FPN/RFP이랑 차이를 모름
1. inductive bias
attention
1. 아니 cross-attention 이 뭐죠
2. dot product?
PSNR(측정기준)
R-FID(측정기준) : fid matrix라고 부르던데 낮을 수록 좋다고 말함
1. Inception -V3
2. multivariate gaussian distribution
3. Wassertein-2 distance
DALLE-E (이미지 생성) - 내 머릿속에서는 stable diffusion 라이벌임
단어
1. unconditional image synthesis : 이미지 복원
2. inpainint : 이미지를 가렸을 때 다시 복원시키는 능력

해석이란게 decoding말하는 거겠지? // 논문뒤의 appendix를 자세히 보라고 한다.

일단 여기까지

StyleCLIP에 대한 논문을 봤다. (0)	2023.04.30
DeltaEdit에 관한 논문을 봤다. (0)	2023.04.29
Stable Diffusion 을 이해하기 위한 과정(1/5) (0)	2023.04.26
Difference between AE and VAE (0)	2023.02.07
DetectoRS: 재귀적 특징 피라미드와 교환가능한 Atrous Convolution 을 이용한 객체 검출 (0)	2020.07.29

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함