DiffStyler: Controllable Dual Diffusion forText-Driven Image Stylization

티스토리 뷰

DiffStyler: Controllable Dual Diffusion forText-Driven Image Stylization

아인샴 2024. 3. 14. 12:05

Abstract
- 임의의 이미지 유도 스타일 전송 방법의 인상적인 결과에도 불구하고, 사용자가 제공하는 대상 스타일의 텍스트 설명에 따라 자연스러운 이미지를 스타일화된 이미지로 전송하기 위한 텍스트 기반 이미지 스타일화가 최근 제안되었다.
- 이전의 image2image 변환과 다르게 text-guided stylization progress은 보다 정밀하고 직관적인 이상적으로 스타일을 표현하는 방식을 제공한다.
- 그러나, 모델 간(cross-modal) i/o의 큰 불일치성 때문에 일상의 피드포워드 CNN 파이프라인 에서 text로 이미지 스티일화를 수행하는 것이 어렵다.
- 이 논문에서는 DiffSytle을 제공하여 2개의 diffusion 처리 구조를 통해 diffused 결과의 내용과 스타일을 조절할 생각이다.
- 크로스 모달 스타일 정보는 확산 과정에서 단계별로 가이드로 쉽게 통합할 수 있습니다
- 또한 역노이즈 프로세스의 기반이 되는 콘텐츠 이미지 기반 학습 가능한 노이즈를 제안하여 스타일화 결과가 콘텐츠 이미지의 구조 정보를 더 잘 보존할 수 있도록 한다.
- 우리는 광범위한 정성적 및 정량적 실험을 통해 기본 방법을 넘어서는 제안된 DiffStyler를 검증한다. 코드는 https://github.com/haha-lisa/Diffstyler 에서 사용할 수 있다.
Introduction - 눈에 띄는 문장만 복사. ( GAN based
- In addition, style images themselves have strong limitations for color and texture.
- GAN 기반의 접근은 text와 style사이에서 모델/생성기능 한계가 있다. GAN기반 접근은 style 구분자에 기반하고 샘플의 부적절한 패치(?)의 경우에는 만족스러운 결과를 새성할 수 없다.
- We found that textual information can easily guide the diffusion model for stable stepwise diffusion without relying on additional random style patches.
- To solve the image content preservation problem of the diffusion model, we propose a novel controllable doublediffusion text-driven image stylization method, the working schematic of which is shown in Fig. 1.
- text-based의 설명 스타일과 content image를 Input으로 활용하여 stylizaed image를 생성하는 DiffStyler의 예시
- 이미지 생성을 위한 전통적인 확산 모델과 달리 다음과 같은 세 가지 개선점을 제공합니다.
  1. 콘텐츠 이미지의 Free diffusion process에서 Random noise를 학습 가능한 노이즈로 대체하여 콘텐츠 이미지의 main structure를 보존한다
  2. Inference 과정의 각 스텝에서 dual diffusion 구조를 채택함으로써 stylized results가 content/abstract와 심미적으로도 둘 다 명확해졌다. 또한 수치적 방법 측면에서 확산 프로세스의 시뮬레이션을 최적화하여 생성 프로세스가 샘플링 속도를 높이면서 품질을 보장할 수 있다.
    - We apply learnable noise based on the content image to overcome the destructive effect of adding random noise to the image content during traditional diffusion.
  3. 많은 예들이 DiffStyler가 기준 방법들을 능가하고 이상적인 content structrue들과 Style patterns들로 뛰어난 결과들을 달성한다는 것을 보여준다.
    다양한 텍스트 프롬프트를 가진 DiffStyler의 이미지 양식화 결과. 각각의 결과에 대한 입력 콘텐츠 이미지는 인세트(inset)로 표시된다. 제안된 양식은 양식화를 위한 텍스트 프롬프트를 사용하여 다양한 스타일의 디지털 아트를 생성할 수 있다.
Related Work
- Image Style Transfer ; Style stransfer의 목적은 사진에 그림의 스타일을 통합하면서 원본 내용을 보존하는 것.
  더보기
  초기에 Gatys 그룹들이 CNN의 계층적 구조를 가지고 image content structure와 style texture inforamtion 을 추출했다. 그리고 styleized image를 생성하기 위한 optimization-based iterative method를 제안했다.
  
  스타일화의 품질을 발전시키기 위해 점점 더 많은 방법들이 그 후에 개발되었다. 실시간에서의 Arbitrary style trasnfer 은 style reconstruction loss뿐만 아니라 feature reconstruction loss의 조합인 Perceptural loss를 최소화함으로써 향상된다. 보다 일반적으로, arbitrary style transfer은 최근에 더 많은 관심을 받고 있다.
  
  Huang 그룹 : adaptive instance normalization (AdaIN)을 제안했다. content의 평균분산을 컨텐츠 스타일로 대체하기 위해서였다. AdaIN은 콘텐츠와 스타일 특징을 융합하기 위해 이미지 생성 작업에 널리 채택되고 있다.
  
  Deng 그룹 : 콘텐츠와 스타일에 대한 도메인별 시퀀스를 각각 생성하기 위해 두 개의 서로 다른 트랜스포머 인코더를 포함하는 StyTr2를 제안했다
  
  Zhang 그룹 : 여러 스타일 간의 유사점과 차이점을 분석하고 스타일 분포를 고려하여 이미지 특징으로부터 스타일 표현을 직접 학습하는 대조적 임의 스타일 전송(CAST)을 제시했다.
  
  결론적으로, 전통적인 image style transfer 은 안정적이지만 추가적인 스타일 이미지의 제공을 필요로 하며 그 결과는 예술성과 창의성이 부족하다.
- Text-Driven Image Manipulation
  더보기
  Diffusion model은 랜덤 신호에서 노이즈를 단계적으로 제거하여 이미지를 생성하는 것을 학습한 생성 모델로서, 최근 큰 관심을 받고 있다. 확산 모델을 이용하여 이미지 생성을 구현한 최초의 인물은 Sohl-Dickstein 그룹이며, 이후의 접근법에서 지속적인 연구를 통해 확산 모델은 전례 없는 품질의 고해상도 이미지를 생성하고 있으며, 종종 GAN을 능가한다.
  노이즈 제거 확산 확률 모델(DDPM)은 고품질 샘플을 생성할 수 있지만, 최종 샘플을 생성하기 위해서는 수백에서 수천 번의 반복이 필요하다. 일부 이전 방법은 분산 스케줄(예를 들어, IDDPM) 또는 노이즈 제거 방정식(예를 들어, DDIM)을 조정하여 DDPM을 성공적으로 가속화했다. 그러나, 이러한 가속 방법은 샘플의 품질을 유지할 수 없다.
  
  Liu 그룹은 DDPM이 다양체에서 미분방정식을 푸는 것으로 고려되어야 한다는 아이디어를 제안하고, 표본 품질을 유지하면서 추론 과정을 가속화하기 위해 확산 모델(PNDM)을 위한 의사-수치 방법을 제안했다.
  
  최근 DALL.E 2, GLIDE 및 Imagen과 같은 여러 대규모 텍스트-이미지 모델이 등장하여 전례 없는 이미지 생성 결과를 보여주고 있다. 특히, 일부 연구는 점진적 추론 프로세스의 제어를 향상시켜 놀라운 제어 가능성을 갖는 확산 모델을 제공하는 데 초점을 맞추고 있다. style transfer 분야에서 주목할 만한 발전은 GLIDE와 Stable Diffusion에 의해 개발된 놀라운 텍스트-이미지 확산 모델을 통해 실현되어 우수한 결과를 달성할 수 있는 확산 기반 접근 방식이 가능해졌다.
  
  상기 작업들은 입력 이미지의 구조를 유지하도록 설계되지 않았기 때문에, 이는 전통적인 스타일 전송 작업들의 문제 설정을 상당히 만족시키지 못한다.
  
  위의 작업들이 추가적인 단계들을 가진 img2img 애플리케이션에 적용된다면, 결과는 입력 이미지와 상당히 다를 것이다. Kim 그룹는 이미지들의 글로벌 변화들을 수행하는 것에 초점을 맞춘 DiffusionCLIP으로 알려진 방법을 소개했다. 그러나 DiffusionCLIP은 특정 도메인들에 대한 적용가능성에 제한이 있고 임의의 이미지들에 대해 동작하도록 설계되지 않았다는 것에 유의해야 한다.
  
  기존 접근 방식과 달리 Diffuision 방식을 활용하여 텍스트 프롬프트에 따라 안내되는 임의의 이미지를 양식화할 수 있는 새로운 방식을 개발하는 것이 목표이다. 확산의 힘을 활용하여 사용자에게 특정 도메인의 제약을 넘어 정확하고 제어 가능한 양식화 기능을 제공하는 것을 목표로 한다.
- Diffusion Models for Image Synthesis
  
  더보기
  기존 텍스트 가이드 이미지 합성에서 텍스트 임베딩을 위한 인코더는 생성 모델의 가이드 조건으로 작동한다. OpenAI는 여러 방법으로 텍스트 조건으로 이미지를 조작하는 고성능 텍스트-이미지 임베딩 모델 CLIP을 제안했다.
  StyleCLIP은 StyleGAN의 학습된 잠재 공간을 탐색하여 속성 조작을 수행했다. 이들은 적절한 벡터 방향을 찾아 주어진 텍스트 조건을 향한 생성 프로세스를 제어한다. 따라서 StyleGAN-NADA는 텍스트 조건만을 사용하는 모델 수정 방법을 제안하고 학습된 모델을 새로운 도메인으로 변조했다. 이러한 방법은 특정 도메인에서 성공적이었지만 임의의 데이터에 적용하기 어렵다.
  위의 작업을 기반으로 Kwon과 Ye는 현실적인 텍스처 전송을 위한 멀티뷰 증강과 함께 패치별 텍스트-이미지 매칭 손실을 포함하는 CLIPstyler를 제안했다.
  
  Fu 그룹 : 스타일 명령어에서 시각적 의미를 추출하는 방법을 배우는 대조 언어 시각 예술가(CLVA)를 제안하고 패치별 스타일 판별기로 LDAST를 달성했다. CLIPstyler와 LDAST의 스타일화 효과는 패치 스타일 판별기에 따라 다르며 무작위로 샘플링된 패치의 품질은 전송 결과에 중요한 영향을 미칠 것이다.
- Noise Impact
  
  더보기
  Diffusion process 에 대한 노이즈 효과의 uniqueness을 감안할 때, 많은 연구자들이 입력 노이즈에 대한 심층 작업을 수행했다.
  
  예를 들어, Video ControlNet 은 노이즈 제거 과정에 사용된 초기 노이즈 샘플이 텍스처 합성에 상당한 영향을 미친다고 제안한다. 노이즈의 공간 번역 또는 왜곡이 출력 시맨틱스를 변경할 수 있기 때문에 비디오 컨트롤넷은 생성된 비디오의 시간적 일관성을 최대화하기 위해 슬라이딩 윈도우 접근법을 사용하여 잘 설계된 입력 노이즈 조합 체계를 도입한다. 그러나 광학 흐름 추정의 불일치 및 부정확성으로 인해 생성된 비디오에 일부 시간적 불연속성이 남아 있다.
  
  PFB-Diff는 초기 랜덤 노이즈를 활용하고 점진적 특징 블렌딩 및 attention masking mechanisms을 결합하여 중간 노이즈 이미지를 생성하고, 이는 이후 최종 편집된 이미지를 얻기 위해 점진적으로 노이즈를 제거한다. 한 가지 제한 사항은 모델이 백그라운드 교체에서 원하는 장면을 생성하는 데 어려움을 겪을 수 있다는 것이다. 또 다른 제한 사항은 텍스트를 통해 원하는 객체를 설명하는 능력이 제한되어 개인화된 편집을 어렵게 만든다는 것이다.
  
  보다 최근에, VideoFusion[41]은 프레임당 잡음을 두 부분, 즉 기본 잡음과 잔류 잡음으로 해결하며, 여기서 기본 잡음은 연속 프레임에 의해 공유된다. 연속 프레임 간에 기본 잡음을 공유하는 VideoFusion은 시간 상관 관계를 더 잘 활용하는 데 도움이 되는 반면, 생성된 비디오에서의 움직임을 제한하고 프레임 간의 차이가 큰 비디오 생성에는 적용되지 않는다. 이를 통해 사전 훈련된 모델의 이미지 우선 순위가 모든 프레임에서 효율적으로 공유될 수 있으므로 비디오 데이터의 학습을 용이하게 한다.
  
  이상의 연구와 달리, 본 연구에서는 스타일 전달 영역 내에서 노이즈가 콘텐츠 보존에 미치는 영향을 분석한다. 또한, 스타일 양식화 작업을 용이하게 하기 위해 확산 모델링 프레임워크 내에서 학습 가능한 노이즈를 사용하고자 한다.
Method
- 이제 우리는 텍스트 기반 이미지 양식화를 위한 제어 가능한 이중 확산 프레임워크인 DiffStyler를 공식적으로 소개한다. DiffStyler는 콘텐츠 이미지 x0와 타겟 텍스트 프롬프트 T가 주어지면 x0를 원하는 스타일의 양식화된 이미지로 변환할 수 있다.
  그림3. 핑크 모듈은 자유 유도 확산 과정을 나타내며, 이는 x ˆT로 표시되는 학습 가능한 노이즈를 생성한다. x ˆT는 녹색 모듈의 샘플링 과정을 위한 시작 맵으로서 x'T와 같도록 설정된다. 또한, 파란 모듈의 유도 조건은 샘플링 과정의 노이즈 제거 단계에 통합된다. 각 단계에 대해 옐로우와 퍼플 혼합 색상 모듈로 표시되는 이중 노이즈 제거 U-Net 아키텍처가 사용된다. 퍼플 아키텍처는 realistic U-Net에 해당하며, 옐로우 아키텍처는 esthetic U-Net을 나타낸다. 노이즈 제거를 T 단계 후에, 최종 출력 x'0이 얻어진다.
- Fig. 3에 나타낸 바와 같이 DiffStyler는 크게 3단계로 구성되어 있다.
  1. 확산 모델에 내용 영상 x0을 입력하고, 학습 가능한 노이즈를 얻기 위해 free-guided diffusion process의 T1단계를 수행하도록 한다.
  2. free-guided diffusion 의 T단계에서 결과 x ˆ T를 역 샘플링 과정을 위한 이중 확산 모델의 입력 x'T로 사용한다.
  3. 역 샘플링 과정에서 관련 최적화를 수행한다. 이 과정은 알고리즘 1과 2에 묘사되어 있다. 우리는 확산 모델의 고유한 특성을 조사하고 새로운 내용 보존을 제안한다
- 학습 가능한 노이즈와 style/content 디커플링을 위한 dual diffusion 경로를 통해 diffusion model 작업에서 확산 모델의 한계를 성공적으로 돌파할 수 있다.
  t(index)부터 T(tatal step)까지 샘플링 한 것을 합쳐서 업데이트 하는 정도만 이해함.
  1. Dual Diffusion Models
    - 1) Denoising Diffusion Probabilistic Models:
    - 더보기
      
      최근 DDPM이 고품질 이미지를 생성하는 것으로 나타났습니다. DDPM은 매개변수화된 마르코프 노이즈 이미지에 대한 노이즈 제거 프로세스를 학습합니다. 등방성 가우시안 노이즈 샘플은 훈련 분포에서 샘플로 변환됩니다. 다음에서는 DDPM에 대한 간략한 개요를 제공한다.
      
      DDPM의 핵심에는 각 시간 단계 t에서 분산 βt ∈(0, 1)을 갖는 가우시안 노이즈를 초기 데이터 분포 x0 ~ q(x0)에 추가하는 것을 포함하는 순방향 노이즈 제거 프로세스가 있다. 이것은 다음 방정식에 의해 지배되는 이미지 시퀀스 x1, ..., xT를 생성한다:
      초기 x0에서 x1부터 xT가 나올(확산될) 경우라는 것은 각 스텝에서 확산되는 가능성 연속의 곱이다. (1)은 각 스텝의 output을 βt ∈(0, 1)의 분산을 가지는 가우시안 노이즈를 이용해 평균, 표준편차 형태로 표현 한 것 같다.
      
      어어 그래 라플라시안 쓴 거지? (이해못함ㅠㅠ) 240316
      
      여기서 q(x1, ..., xT | x0)는 초기 이미지 x0가 주어진 이미지 시퀀스의 joint distribution를 나타내고,
      
      q(xt | xt-1)는 이전 이미지 xt-1가 주어진 이미지 xt의 조건부 분포를 나타낸다. 단계 T가 증가함에 따라 최종 출력 xT는 등방성 가우시안 분포(isotropic Gaussian distribution)에 근사하는 경향이 있음을 유의해야 한다.
      
      순방향(forwad) 노이즈의 주요 특징은 각 단계 xt가 x0에서 바로 샘플링될 수 있다는 것이며, 중간 단계를 구성할 필요가 없다는 것이다
      여기서, ϵ ~ N (0,I)는 가우시안 노이즈 샘플을 나타내고, αt = 1 - βt는 시간 t에서의 보완 노이즈 레벨을 나타내며, α ¯ t = Qt s = 0 에서 시간 t까지의 누적 노이즈 레벨을 캡처한다.
      
      중요한 것은, 이 프로세스를 반전시켜 분포 q(x0)로부터 새로운 샘플을 생성할 수 있다는 것이다.
      
      마르코프 과정은 분포 q(x0)로부터 새로운 샘플을 생성하기 위해 반전된다. 또한 가우시안 분포인 것으로 입증된 후행 q(xt-1 | xt). 이들은 역순서를 생성하기 위해 가우시안 노이즈 샘플 xT ~ N(0,I)로부터 시작하여 샘플링된다. q(xt-1 | xt)는 미지의 데이터 분포 q(x0)에 의해 결정된다.
      
      입력된 xt를 이용하여 xt-1의 평균과 공분산을 예측하기 위해 심층 신경망 p θ이 사용된다. 이 네트워크는 이러한 통계에 의해 매개변수화된 정규 분포로부터 xt-1의 샘플링을 가능하게 한다
      
      µθ(xt, t)을 직접 추론하는 것은 매우 어렵기 때문에, 우리는 "Denoising diffusion probabilistic models"을 참조하고, 먼저 소음 예측 ϵθ(xt, t)을 계산한 후 베이즈 정리( (2) 참조)에 대입하여 (4)를 도출한다
    - 2) Pseudo-Numerical Methods for DDPM:
    - 더보기
      
      : Diffusion models은 가우시안 데이터를 반복적으로 이미지로 변환한다. 고품질 샘플을 위해 많은 반복이 필요하므로 큰 샘플 생성이 느려진다. Numerical methods은 제한된 범위 내에서 한계가 있다. 확산 모델 방정식과 함께 수치적 방법을 사용할 때 또 다른 문제가 발생한다. 신경망과 방정식은 제한된 범위 내에서만 잘 정의된다. 이를 해결하기 위해 생성된 데이터의 도함수를 계산하기 위해 역과정이 사용된다.
      
      The diffusion model equation은 대부분의 경우 무한대이며, 이는 생성 과정이 잘 정의된 영역에서 멀리 떨어진 표본을 생성하여 새로운 오류를 도입할 수 있음을 의미한다.
      
      확산 모델의 관련 미분 방정식은 확산 과정과 수치 방법 사이의 이론적 관계를 제공하기 위해 직접적이고 자기 일관적으로 도출될 수 있다
      step t에서의 x변화량 (알파가 내가 아는 lr맞나? 그럼 앱실론은 뭐지?)
      
      The equation of the numerical method은 다음과 같이 재정의된다
      
      여기서 f는 (5)이다. 유사한 생성 품질을 가지는 확산 모델은 의사선형 다단계 방식이 가장 효율적인 방법임을 "Pseudo numerical methods for diffusion models on manifolds," 실험적으로 입증하였다.
      - 3) Learnable Noise:
      - 확산 모델은 비평형 열역학에서 영감을 받았습니다. 그들은 무작위 노이즈를 데이터에 천천히 추가하는 확산 단계의 마르코프 체인을 정의한 다음, 노이즈에서 원하는 데이터 샘플을 재구성하여 확산 프로세스를 역전시키는 방법을 배운다.
      - 이전 확산 작업에서는, 일반적으로 무작위 가우시안 노이즈 이미지 또는 이에 대응하는 무작위 가우시안 노이즈로 중첩된 입력 이미지가 샘플링 프로세스의 시작 이미지 x'T로 사용된다.
    - 그림 4. 최첨단 image style transfer 방법과의 질적 비교. (a) 콘텐츠 이미지. (b) 텍스트 안내. (c) 우리의 결과. (d) LDAST. (e) CLIPstyler (opti). (f) CLIPstyler (fast). (g) DiffusionCLIP. (h) Stable Diffusion
    - 이 작업은 입력 이미지의 내용 구조를 보호하지 않으므로 그림 4의 안정적인 diffusion 결과에서 볼 수 있듯이 생성된 이미지가 내용 측면에서 입력 이미지와 크게 다르다.
    - 이미지 생성을 위한 확산 모델의 놀라운 발전에도 불구하고 Stochastic noising process의 파괴적 특성과 Reverse denoising process의 무작위 특성으로 인해 원본 이미지의 내용을 보존하기가 어려워 확산 방법에 의한 스타일 전달은 여전히 잘 탐구되지 않았다.
    - 이러한 맥락에서 우리는 확산 모델의 고유한 특성을 조사하고 활용했다. 우리 연구 결과는 텍스트 안내 없이 입력 이미지에 자유 확산의 T 단계를 수행하여 xT의 최종 노이즈 제거 결과를 달성한다는 것을 나타낸다. 특히 (7)로 표시되는 노이즈 제거 네트워크의 안내 조건으로 제로 임베딩을 소개한다.
    - 노이즈 제거 네트워크 ϵθ(x0)는 파라미터화된 조건부 모델을 나타낸다. 일반적으로, 확산 방법에서, 정방향 및 샘플링 프로세스 단계의 수는 동일하다. 그러나, 우리는 역확산 단계 T의 수를 초과하여 자유 확산 단계 T1의 수를 증가시키면 입력 영상의 내용 구조가 더 잘 보존된다는 것을 발견했다. 따라서, 우리는 그림 3의 파이프라인의 분홍색 화살표와 같이, 우리의 실험에서 샘플링 프로세스의 초기 영상 x'T로 x ˆ T를 채택한다. T1과 T는 각각 150과 50으로 설정된다.
    - 이 접근법은 입력 이미지의 콘텐츠 구조의 강화된 보존을 보장하여, 이미지 양식화 작업에 적합하게 렌더링한다. 이 프로세스는 알고리즘 (1) 및 알고리즘 (2)에 요약되어 있다
    - 4) Basic Architecture of DiffStyler
    - 더보기
      
      확산 모델이 자연 이미지 데이터 세트에서만 훈련되면 결과가 실제 이미지에 가깝고 예술적인 외관이 부족하다는 것을 발견했습니다. 확산 모델이 예술 이미지 훈련 세트에서만 훈련되면 결과가 너무 추상적이어서 입력 내용을 보존할 수 없습니다. 따라서 Conceptua 12M[42], [43] 및 WikiArt[44] 데이터 세트에서 각각 훈련된 광 노이즈 제거 네트워크 ϵθ1 및 ϵθ2를 사용했다. 그런 다음 dual channel score estimates의 다음 선형 조합을 사용하여 샘플링을 수행합니다:
      
      여기서 0 < w < 1. 우리는 추론 과정의 각 단계에 이를 활용하여 내용적이고 추상적인 미학에서 명시적인 양식화된 산출물을 산출한다.
  2. Network Optimization
    - 1)Instruction Loss :
      더보기
      - 사전 훈련된 ViT-B/16 CLIP [30] 모델을 활용하여 텍스트 프롬프트에 따라 콘텐츠 이미지를 stylize 한다. diffusion process에서 transfer된 이미지 xt의 CLIP 임베딩과 텍스트 프롬프트 T의 CLIP 임베딩 사이의 코사인 거리는 CLIP-based loss 또는 L_inst를 지정하는 데 사용될 수 있다. 임베딩 x_t의 E_x_t와 ET 간의 유사성을 측정하는 코사인 거리를 사용하여 언어 안내 함수를 정의한다. 텍스트 안내 함수 text guidance function는 다음과 같이 정의할 수 있다
      
      -여기서 DCLIP는 CLIP 임베딩의 코사인 거리이다.
    - 2) Content Perceptual Loss:
    - 더보기
      
      입력 이미지의 콘텐츠와의 정렬alignment을 더욱 향상시키기 위해 우리는 특징 맵을 사용하여 content loss 및 패치별patchwise contrastive content loss[1], [45]를 추출했다.,
      
      여기서 φi(·)는 pretrained VGG19 및 N_l에서 i번째 레이어에서 추출된 특징을 나타낸다. N_l은 레이어의 개수다.
      
      또한 특정 위치에서 해당 입출력 패치를 매칭하기 위해 contrast learning[45]을 활용한다. 입력 내의 다른 패치를 네거티브로 활용할 수 있다.
      
      x'0, x0 ∈ R Hpatch×Wpatch×C를 동일한 공간 위치에 있는 두 신호로부터 패치한다고 하자. 해상도가 H × W인 패치는 RGB 이미지 패치(C = 3)이다. 인코더 F는 픽셀 패치의 단순 선형 투영projection이다.
      
      생성된 네트워크 및 입력 이미지 패치의 임베딩 벡터는 각각 v = F(x'0) 및 v+ = F(x0)로 정의된다. N개의 네거티브는 K차원 벡터에 매핑되고 v-n은 n번째 네거티브를 나타낸다.
      
      loss는 내장된 패치의 유사성에 비례하는 로짓을 갖는 (N +1)-way 분류 문제로 지정된다. 포지티브 예제가 네거티브 예제보다 선택될 확률을 나타내기 위해 교차 entropy 손실은 다음과 같이 계산된다
      (11)
      
      여기서 τ = 0.07은 온도를 제어하는 매개변수입니다.
      s(v1, v2) = vT1v2는 부호화된 두 패치 신호의 유사도의 내적을 전달한다. 우리는 표기법 vs l ∈ R을 활용한다
      Dl
      th번째 공간 위치에서의 Dl 차원 특징 벡터인 텐서에 인덱스하기 위해. 다른 모든 공간 위치에서의 특징 벡터들의 집합은 v ¯ sl ∈ R(Sl-1)×Dl로 표현된다
      , 여기서, Sl은 텐서의 공간적 위치들의 수이다. 그리고 패치와이즈의 대조적 콘텐츠 손실은 (12)로 정의된다
    - 3)Esthetic Loss
      더보기
      우리는 또한 모델의 스타일 표현을 인간의 선호도와 더 일치시키기 위해 에스테틱 손실을 사용한다. 모델을 활용해 trained on Simulacra Esthetic [46], [47]에 대해 훈련된 CLIP 에스테틱 회귀 R을 적합하고 추론 코드를 사용한다. 이 데이터 세트는 확산 모델에서 생성된 238,000개 이상의 합성 이미지 데이터 세트이며 인간 ratings도 포함한다. 우리는 이를 점수로 사용하여 DiffStyler에서 생성된 결과를 평가하고 옵티에 대한 가중 에스테틱 탐색 손실을 반환합니다. (13)
      L.aes는 전체적인 시각적 품질을 향상시킨다.
    - 4)Total Variant Loss:
      더보기
      총 변동 손실(Total Variation Loss, Ltv)은 이미지 처리 및 컴퓨터 비전 응용 분야에서 광범위하게 사용되는 정규화 기술이다. 그 주요 목적은 강도 또는 기울기의 급격한 변화에 대한 불이익을 줌으로써 원활한 전이와 노이즈의 존재를 촉진하는 것이다.
      
      Ltv에 대한 수학적 표현은 (14)로 정의된다.
      
      상기 식에서 심볼 I은 고려 중인 이미지에 대응하고, Ii,j는 공간 좌표 (i,j)에 위치한 픽셀 강도를 나타낸다. 이 손실 계산은 수평 방향 및 수직 방향 모두에서 이웃하는 픽셀 강도 간의 절대적인 차이를 포함한다. 전체 이미지에 걸쳐 이러한 차이를 합산함으로써, Ltv는 픽셀 값의 급격한 변화를 억제함으로써 평활성을 장려한다.
      그 결과 총손실은 다음과 같이 공식화된다: (15)
      
      우리는 λ d, λ c1, λ c2, λ aes 및 λtv를 각각 50, 3.0, 1.0, 10 및 80으로 설정했다. 손실 가중치의 영향에 대해서는 Ⅳ-E 절에서 설명한다

여기까지 보다가 연구주제를 바꿔야 겠다는 생각이 들었다...

'AI' 카테고리의 다른 글

Deep Visual Domain Adaptation: A Survey2 (0)	2024.03.22
Deep Visual Domain Adaptation: A Survey 읽기 (0)	2024.03.21
인공지능학술대회 논문을 읽어보자 (0)	2024.03.11
YOLO v1~v8까지 정리 해보자 (0)	2024.03.04
DragGAN을 봤다. (4)	2023.06.07

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

꼭꼭 씹어먹고 싶은 만성소화불량

티스토리 뷰

DiffStyler: Controllable Dual Diffusion forText-Driven Image Stylization

'AI' 카테고리의 다른 글

티스토리툴바