티스토리 뷰

2024.03.25 - [Warble] - 0325 papers

 

 

B. Continual Domain Adaptation

모델이 새로운 domain을 순차적으로(sequentially)  채택할 때, catastrophic forgetting을 완화할 다양한 유형과 방법이 있다. 

  • Cotinual DA : 모델은 same label set을 공유하는 domain data를 순차적으로 학습해야 한다. 
    • Dlow : domain gap을 줄이기 위해 cotinuous flow intermediate state 사용
    • VDER : data replay 전략(이전 task의 feature representation 을 유지하며 domain-invariant featrues를 얻기)설계
    • GRCL : gradient 기반 regularization(model parameter 갱신 제한) 설계
  • Class-incrementatl DA : 모델은 여러 작업을 중복 클래스없이 지속적으로 학습하고(CI), 모델은 label의 supervision 없이 새로운 target class를 incrementally(증분하여) 학습가능, CI-DA는 domain-gap을 감소시켜야 하는데 어렵다.
    • CIDA : source-free DA에서 class-level prototype 과 discriminative feature representation 을 획득
    • CBSC : domain-invariant representation 을 캡쳐하는 supervised contrastive regularizations를 설계
    • ProCA : target label detection 과 src domain 의 class-level prototype을 활용해 Model adaptation 유도 

PLDCA는 위 methods와 다르다.

  • PLDCA : class-level 및 instance-level의 Label distiallation 을 활용하여 biased source information 을 필터링함으로써 target domain 성능을 향상시킨다. ProCA에 비해 우리는 domain-invarint knowlege을 얻기 위해서 novel pseudo Label distillationcontrastive alignment 모듈을 제안한다.
    • ProCA의 target label detectionmemory bank를 논문에서 continual DA를 보조하는데 썼다. 

 

III METHODOLOGY

  • PLDCA : CI-UDA 문제해결을 위해 class 및 instance level 에서 contrastive alignment를 사용하여 domain discrepancy를 줄이고 discriminative target representation 을 사용한다. 
    • pseudo-Label distillation : Src domain으로부터의 biased information를 필터링하고 negative transfer을 완화한다.
    • 구조(framework)는 그림2

그림2. pretrained src 모델을 활용해 target class를 detetct 하고 보정(calibrate), target sample에 대한 pseudo label을 생성한다. 그 다음 prediction 에 따라 target data set을 confident/unconfident로 sample을 나눠서 pseudo label을 보정한다. 마지막으로 각 클래스에 대한 discriminate(판별) sample을 저장하는 memory bank를 구성,갱신 시킨다.  L_dis부터 L_class는 모두 PLDCA training과정을 supervise 하는데 쓰인다.

 

A. Problem Formulation

  goal이 주어진 상황에서, 무슨 action 과 states를 고려할 것인지 결정하는 과정을 말한다(출처)

  • $D_s =\left\{(x_i^s,y_i^s)|y_i^s\in C_s \right\}_{i=1}^{n_s}$ 이 수식을 Src domain의 데이터셋으로 정의한다.
  • $D_t= \left\{ x_j \right\}_{j=1}^{n_t}$ 이 수식을 annotated label 없는 Tgt domain의 데이터셋으로 정의한다. 
$n_s$ src domain의 이미지 수 $n_t$ target domain의 이미지 수
$C_s$ src domain(sd)의 클래스 $C_t$ target domain(td)의 클래스
$x_i^s$와 $y_i^s$ sd의 이미지와 라벨     
  • UDA는 특징추출기 $G_s$와 분류기 $F_s$, sd의 사전학습될 $D_s$, 라벨없이 미세조정할 $D_t$가 필요하다. UDA문제를 해결하기 위해선 $D_s$와 $D_t$사이의 feature representation을 align해야 하는데, 현실에선 whole target doman을 구하기 쉽지않고 $C_t$까지 증가할지도 모른다. ProCA가 제안한 CI-UDA 이 문제를 해결한다.
  • CI-UDA  : 설정에서 sd dataset $D_s$와 pre-trained model {$G_s,F_s$}는  모든 학습기간에 사용가능하지만 Unlabeled target samples들은 current training step 만 가능하다.
  • 우리는 $D_t$를 $C_t$가 $C_s$의 하위집합이란 조건으로 current training step 의 target domain dataset 이라 정의한다. 마지막에는 모든 target domain 데이터셋에서  target 분류기를 평가할 것이다. 

B. Target Label Detection

  • Detecting target class set : current training step 에선 $D_t$의 라벨을 모르기 때문에 $C_t$ set detecting이 필수다. $D_s$ 사전학습된 모델 {$G_s$,$F_s$}를 활용해 target sample을 예측하고 target sample의 수와 값을 고려해 target sample 전체의 예측을 누적시킨다. 확률 누적(probability cumulation)은 다음과 같이 쓸 수 있다. 

(1) 특징추출기 G가  추출한 특징을 classifier F가 분류하고 그것으로 Q는 output을 산출한다. learning step 이 진행되며 이것을 계속 더해나가는데, (network value같다) (2)는 그 값을 normalize하는 과정이다.

 

$Q_k$ class $k$에 대한 output 예측 $u=[u_1,u_2,...,u_k]$  K개 클래스와 그에 대한 confidence 집합 
$n_t$ current learning step $\alpha $ class threshold
$u_k$ normalization class k if $u_k>\alpha$면 current learning step의 target class로 간주하고 ${\mu }_k$는 k와함께 $Dict=\left\{(c_k,{\mu }_k)\right\}_{k=1}^K$로 메모리에 저장된다. 
       
$q_j=G_s(x_j)$ pretrained model $G_s$에 추출된 특징 $\widehat{y_j^k}$ class k에 대한 예상 확률 
  • 선택한 클래스 k기준으로 feature 중심(centroid)을 계산하면 다음과 같다. 

class-level feature centrod를 특징과 예상확률을 이용해 구함

  • class-level featrue 중심을 기준으로 가장 가까운 중심(centroid)을 구하는 방법론을 활용해 각 target sample에 대한 pseudo label을 다음과 같이 구할 수 있다. 

cosine의 의미는 코사인 유사도 거리함수를 의미한다. 그리고 $\overline{y_j}$는 이미지 $x_j$를 갖고 생성된 pseudo label이다. 수식(4)는 추출된 특징 $q_j$와 특정 클래스 k에 대한 feature 중심 $c_k$의 벡터를 코사인 유사도 함수를 통해 클래스 중 가장 가까운 centroid를 찾으며 특징으로 , 특징 $q_j$와 가장 유사한 클래스의 label을 생성한다.

  • Memory bank construction : Memory bank는 선택된 target classes에 따라 각 클레스에 대한 discriminative samples를 계속해서(maintain) 기록하고 이전 training step의 knowlege를 기억하도록 돕는다. 우리가 선택한 discriminative 샘플들은 class k에 대한 nearest neighbor method 를 택했고 아래와 같다.
  • 모델은 update되는 동안 discriminative sample을 memory bank에 저장한다.
  •  
iterative index range 1 to M  $\widetilde{\mu }$ 누적 확률
       
$\alpha$ 잠재적 클래스를 선택하기 위한 낮은 초기임계값    

 

C. Pseudo-Label Distillation 

  • domain discrepancy 때문에 src domain에 대한 biased infomation 을 도입하고 그럼 학습도 치우치게 유도된기에 이런 biased source knowlege를 필터링하여 negative transfer 을 방시할 pseudo-label distillation 을 설계했다.  

1) Class-Level Label Distillation 

  • 학습전 target class를 선정하기 위한 label detection 을 하는데, 올바른 class set은 알 수 없기 때문에 일단 training  과정에서 클래스 하나가 검출되면 그것을 보증하기 위해 검출된 current training step의 ${\mu}_k$를 Dict의  $\widetilde{\mu}_k$와 비교한다.  $$Dict=\left\{(c_k,{\mu }_k)\right\}_{k=1}^K$$
  • if $\widetilde{\mu}_k$ > ${\mu}_k$, class k는 selected target classes in the current training step 에서 제거된다. 
  • 그렇지 않고 $\widetilde{\mu}_k \leq  {\mu}_k$ 하면, class k 는 다시 학습되고 $\widetilde{\mu}_k$는 ${\mu}_k$로 대체된다. 
  • 또한 training process에서 target classes를 점진적으로 보정한다. 임계값 $\alpha$를 낮은 값으로 정했고 그다음 target model {$G_s$,$F_s$}로 하여금 target image에 대한 확률을 누적하고 같은 threshold를 통해 target class를 정하도록 한다. 낮은 confidence는 필터링되기 때문에 noise label이 줄어들 것이다. 

2) Dynamic Instance-Level Label Distillation 

  • targtet 모델이 어느정도 학습되면, 보정된 target classes에서 각 k의 centroid를 연산하고 각 epoch마다 최근접 centroid method를 통해 보다 정확한 pseudo label을 생성한다. 
  • 이미지의 확률 (sample에 대한 분할의 정도는 dynamic 하다)
    • confident sample $x_c^t$ with pseudo label $\overline{y_c^t}$
    • unconfident sample $x_u^t$ with confident threshold $\beta$
    • confident pseudo-labeled target sample과 labeled source data에 따라 target model {$G_s$,$F_s$}를 $L_class$로 훈련하고 standard corss-entropy loss는 다음과 같다. 
      target $y_c^t$에 hat이 달려있는 이유는 distilled pseudo label이기 때문으로 보인다.

D. Contrastive Alignment (Fig.3)

  • src domain의 클래스 수준 logit centroid과 도메인 레벨의 confident sample 을 활용해 domain-level의 contrastive Alignment를 구성하여 discriminative feature representation을 얻고, src-target domain을 align한다. 그런 다음 Instance-level 의 contrastive alignment가 적용되어 unconfident samples 들은 generalized and robust feature represnetaion 을 얻는 것이다.  이들이 그런 표현을 얻으면 confident sample로의 변환에 도움이 될 것이다. 

1)Domain-Level Contrastive Alignment

처음 src domain의 class-level centroid 구한다고 했던 부분

B Batch  사이즈 $\sigma $ 모멘텀 파라미터(0.99 세팅)
$\left ( c_k^d \right )_{batch}$ 현재 mini-batch의 dynamic class-level logit centroid $\left ( c_k^d \right )_{{batch}-1}$ 이전 mini-batch의 dynamic class-level logit centroid
$c_k^t$ 수식(7)을 보듯, 각 mini-batch마다 confident sample로 계산하는 class-level logit centroid(target)
   
$c_k^d$와 $c_k^t$ positive fair 나머지 클래스의 centroids negative samples
  • if $\left\{y_e^s=k\right\}$ is true, $\Gamma _{\left\{ y_e^s=k\right\}}$ is 1 , else 0
  • Memory bank는 src domain의  dynamic한 class-level logit 중심을 저장하기 위한 것이고 $C_k^d = \left [ C_1^d,C_2^d,\cdots ,C_K^d \right ]$로 표현한다. 
  • 이러한 dynamic한 class-devel의 logit centroids는 매 mini-batch후에 exponential moving average 만큼 갱신되고 그 수식은 아래와 같다. 

mini-batch 마다 갱신되는 $c_k^d$

  • inter-domain contrastive alignment(도메인간의 적대적(IDC) 나열)는 수식화하면 아래와 같다. 

src domain 중심과 tgt 도메인 중심간의 손실함수

$q\in \left\{ s,t\right\},h(u,v)=exp(\frac{u^\top v}{\left\| u\right\|_2\left\| v\right\|_2} )/\tau$ cos유사도의 exponential 평균 (두 벡터{L2 norm}의 유사성을 지수화 했다.)
$\tau$ (set to 5) (주로)softmax의 '날카로움'을 조절하는 하이퍼파라미터로, 낮으면 소프트맥스출력간 편차가 커지고, 높으면 낮아진다. (평평해진다)
   
$x_j^{u,a}$ augmented 함수로 생성한 이미지
$z_j^u$와 $z_j^{u,a}$  $x_j^u$와 $x_j^{u,a}$의 logits(활성화함수이전의 원시예측값)
$\Gamma {\left\{ a\right\}}$ a가 사실이면 1, 아니면 0

 

2) Instance-Level Contrastive Alignment 

    • augmentation function 을 만들었다. 그 샘플은 $x_j^{u,a}$이며 latent space에서 mini-batch마다  $x_j^u$와 $x_j^{u,a}$는 근접하고 나머지 샘플들은 멀어져야 한다. Instance-Level Contrastive Alignment는 latent space 내에서 같은 클래스에게 consistency를 보장하고 unconfident target samples 학습을 목표로 target 도메인의 robust and generalized representation을 활용할 수 있어야 한다. 관련 수식은 아래와 같다. 

이미지 $x_j^u$와 증강한 이미지 $x_j^{u,a}$에 대한 Instance-level Contrastive alginment 의 손실함수, 미니배치마다 같은 클래스는 유사성이 높을 수록 h함수의 값은 커질테고, 따라서 -log 내부 전체의 값은 낮아질 것이다. 즉, 손실함수 $L_IC$는 유사성이 높을때 낮은 값을 갖도록 설계되었다.

 

더보기
  • a, auxiliary domain은 target이 아닌 source domain을 증강시켜 학습을 돕기위한 영역(domain)이다. 
  • j와 r은 1~B사이의 미니배치 내부 인스턴스로 , j는 현재 선택된 특정 인스턴스이며 r은 순회하는 인덱스 이다. 
  • $h(z_j^u,z_j^{u,a})$ : 잠재공간에서 주어진 인스턴스 j의 src domain representation과 auxiliary domain representation 사이의 유사도를 나타낸다. 이 유사도가 높을 수록 로그함수 내부의 값이 더 커지고 -를 입힌 손실함수의 값은 더 작아진다. 
  • 첫번째 항목 
    같은 j인스턴스에 대한 원본과 보조도메인 logits 유사도 총합을 보고 있다.
  • 두번째 항목 


    [작아질수록 손실이 작아진다]보조도메인 내에서 j번째 인스턴스와 같은 보조도메인 내 모든 인스턴스와의 유사도를 계산하며, 이들이 서로 멀어지도록 유도한다. 
이건 내가 이해를 위해 임의로 만들었다.

E. Knowledge Replay 

  • target model이 더 많은 step을 학습하면 catastrophic forgetting 문제에 직면한다.
  • Knowledge Replay : target domain에서 저장된 discriminative sample에 기반하여 knowledge distillation 을 진행함으로써 이전단계의 지식을 보존하는 것

N 각 클래스의 discriminative sample 수
$h_i^\top $ target sample$p_c$에 대한 예상 라벨 확률   
$\xi_1 $ $\xi_2 $ $\xi_3 $ 다양한 loss들에 대한 하이퍼파라미터, 우리실험에서는 모두 1이다.  

 

PLDCA의 objective function

F. Trainig and Inference 

  • Training stage:  일단 source모델로 하여금 target class를 검출하고 target sample에 대한 pseudo label을 생성하도록한다. 
    • target sample이 confidentunconfident sample로 나뉘면 target model 을 그때서야 L로 지도학습을 했다. 
      • 1번째 학습에서는  $\xi_3 $=0, incremental learning 단계에서는 1
      • target model이 warm-up 된 후에는, memory bank에 있는 target domain의 confident samples를 선정하고 pseudo labels와 wrong detection class를 조정(calibrate)했다. 
  • Inference stage : prediction 확률을 얻도록 target model에게 test sample을 보냈다.
    • 그리고 그 prediction class의 maximal classes를 골랐다. 

 

IV. Experiments 

A. Experimental Setup

이러한 class-incremental 비지도 방법들의 효과를 공정하게 평가하기 위해여 다음과 같은 세팅을 기반으로 실험했다. 데이터셋, 구현 세부정보, 비교방법 및 평가 metrics 등을 ProCA와 같이 세팅함

  1. Datasets : Office-31-CI, Office-Home-CI와 DomainNet(전통적임 DA dataset)
    이것들 불확실 도메인 갯수 도매인 내부 가지 갯수 클래스 수 이미지 수  Training step 학습 epoch
    Office-31-CI 3(A,W,D) 3 10   3 15
    Office-Home-CI 4(Ar,Cl,Pr,Rw) 6 10   6 30
    DomainNet 6 5 345 60 만    
    (ImageNet-Caltech-CI는 15epoch으로 학습했다)
    1. Office-31-CI : 3가지 Domain 존재 Amazon, Webcam, and DSLR 다양한 조건의 31개 같은 카테고리를 공유한다. 이 도메인들은 알파벳 순서대로 3개부분으로 나뉘며, 각각 10개의 카테고리를 포함했고 여기서 학습step은 3이었다(?)
    2. Office-Home-CI : 4개의 다른 Domain이 있다. Artistic 이미지, Clip Art, Production images, Real world images, 65개 클래스를 포함했고 이 도메인들은 6개 부분으로 나뉘었으며 각 파트는 10개 카테고리가 있었다. 학습은 6단계 진행했다.
    3. DomainNet :  60만개 이미지가 있었다. 345클래스와 6도메인
  2. Implementation Details :  
    모델  ImagetNet의 ResNet-50 pre-trained
    BackBone ResNet-50 pretrained
    model parameters 2,500만개
    learning rate 0.001
    optimizer SGD
    •   PLDCA는 pytorch로 구현했으며 모든실험은 하이퍼파라미터 α(0.1), β(0.6), M(10),batchsize(24)로 했다.
  3.  Comared Methods : 7개의 DA methods를 비교 방법론으로 골랐다. ResNet-50으로 source domain을 학습시켰고 비지도 DA 는 DANN과 HMA를 썼다. partial DA로는 PADA, ETN, BA3US, class-incremental DA로는 CIDA와 ProCA를 사용했다. 
  4. Evaluation Metrics : 이러한 방법들의 성능을 전부 평가하기 위해 다음과 같은 평가지표를 선택했다. 
    • Final Accuracy : 종합적인 학습 능력을 평가하기 위한 final training step 에서의 classification accuracy.
    • Step-level Accuracy : 각 step의 성능을 평가하기 위한 각 training step의 정확도.
    • Pseudo-label Accuracy : Pseudo-label의 정확도를 평가하기 위한 각 training step에서의 정확도.
    • Average Forgetting : forgetting of previous tasks을 추정하기 위해 정의된다.
    • Final S-1 Accuracy (S1): catastrophic forgetting 완화 능력을 평가하기 위한 final training step 내 step-1 classes의 평균 accuracy.
    • Final Step Accuracy (S f ): domain adaptation의 능력을 평가하기 위한 final training step 내 last classes의 평균 accuracy.
    • Harmonic Accuracy(H): catastrophic forgetting 및 domain adaptation을 완화하는 기능을 평가하는 지표 H는 다음과 같이 나타낸다 :

Harmonic Accuracy

B. Comparisions with Previous Method

  • PLDCA의 우수성을 증명하기 위해 비교실험을 진행했다.  Final Accuracy metric에 대해서는 Table 1,2,3 에 나와있다
    더보기
    ---

    ---

    A mazon,  W ebcam, and  DSLR
  • DANN, PADA, ENT같은 일부 도메인들은 pretrained ResNet-50보다 결과가 안좋았다 → src domain에서 transferring knwledge 하는 것 만으로는 class-incremental unsupervised DA보다 효과적인 처리가 불가능하다는 걸 뜻한다.
  • 이런 방법과 달리 PLDCA는 Office-Home-CI dataset에서 최고의 DA performance 을 보여줬고 Office-31-CI dataset에서는 transfer에서 최상의 결과를 얻었지만 performance에서는 약간의 성능감소가 있었다.  DomainNet에서는 ProCA와 비교해 30개 작업에서 최고의 adaptation 성능을 얻었으며 이는 우리의 방법이 large-scale dataset에서 효과적이란걸 의미한다. 각 데이터셋에서는 PLDCA가 5.8% 4.6% 5.1% 성능이 향상되었으며 쉬운 transfer task보다 복잡한 형태에서 더 큰 성능을 내는걸 발견했다. 이것은 PLDCA가 catastrophic forgetting을 완화시키고 transfer knwoledge 하는 데 있어서 더 강력한 능력을 가졌다는 걸 의미한다. 

  • 더보기
    detected classes and step-level accuracy  in Table IV

     

    Office31 Dataset 에서 select한 4개의 복잡한 adaptation 작업들이 있다 in , A→D, A→W, D→A and W→A,  target classes 가 제대로 검출하기 어려워했던 부분이다. ProCA는 종종 오분류를 했고 오검출한 것은 더 많았다. class label distillation이 없는 PLDCA는 더 많은 잘못된 클래스를 감지하는데, 이는 낮은 α 값으로 현재 클래스에서 정확한 클래스를 놓치지 않도록 한다. 더욱이 PLDCA는 learned target knowledge를 활용해 src domain 에서 biased information을 필터링하고 class-level label distillation 을 이용해 잘못검출된 클래스를 제거했다. 
    PLDCA는 다른 방법들에 비해 최고의 pseudo-label accuracy  얻었으며 pseudo-label distillation없은 PLDCA의 경우와 비교해봤을 때, 우리의 방법이 뛰어난 성능을 야기시켰다는 걸 알 수 있다.

     

     

    first step에서 ENT, BA3US와 같은 일부 전통적인 domain adaptation methods들은 더 나은 성능을 얻었지만 더많은 step을 학습하면 이전보다 성능악화를 보이기에 기존 방법이 심각한 catastrophic forgetting를 겪는 것을 입증했다. PLDCA는 first step 없이 모든 단계에서 최고성능을 얻었으며 동시에 domain gap과 CI-UDA에서의 catastrophic forgetting 문제를 해결하는 것을 입증한다. 따라서 PLDCA는 Sf및 H metric에서 각각 9.2% 4.0%개선으로 best performance를 보였다. S1메트릭dptjs 작은 성능 저하를 얻었지만 PLDCA balance가 catastrophic forgetting 과 negative transfer을 완화하는 능력의 균형을 유지한다는 것을 증명한다.(?)

    Office31-CI에 대한  Final S-1   Accuracy S1,  Final Step Accuracy Sf ,Harmonic Accuracy H on Office31-CI

     ProCA를 관찰하고 BA3US가 S1 metric에서 best performance을 얻으며, 이는 이러한 방법이 catastrophic forgetting을 완화하는 능력이 있음을 증명한다.  ProCA와 PLDCA의 average  forgetting 성능을 표 VII에 나타내어 ProCA가 더 나은 성능을 얻는다.  그러나 이러한 방법은 Sf 메트릭에서 불만족스럽게 수행되어 나쁜 domain adaptation을 나타내며, 이는 CI-UDA 프로세스의 negative transfer 현상을 증명한다.

    추가적인 성능평가를 위해 Step-level Accuracy를 활용하여 domain adaptation methods을 평가함

     

    CI-UDA는 catastrophic forgetting과 negative transfer을 완화할 수 있는 방법을 요구한다. 우리의 방법은 catastrophic forgetting에만 초점을 맞추는 것이 아니라 catastrophic forgetting과 negative transfer을 완화하는 것의 균형을 맞추는 것을 목표로 한다. 우리는 source domain에서 biased information을 걸러내고 지식을 배운다

C. Ablation Study 

Office-31-CI 데이터 세트에 서로 다른 모듈을 사용한 PLDCA의 결과; CC, IC, CA가 각각 base model을 기반 성능향상에 주목했다. 모듈을 결합해 적용하면 성능이 더 우수해진다. 3개의 모듈을 모두 결합한 PDA가 최고 성능을 얻었다. IC는 CACC와의 결합으로 인한 성능차이를 통해 pseudo-label distillation 을 보조하기 위한 discriminative guidance가 필요하다는 것이 증명되었다.

  • Office31-CI Dataset에서 서로 다른 손실을 가진 PLDCA의 결과는 표 9에 나와 있다. $L_{IDC}$와 $L_{dis}$가 명백하게 더나은 성능을 얻도록 method를 보조할 수 있으며 $L_{IC}$를 가진 method는 성능이 약간 떨어진 것을 확인했다. $L_{IC}$가 $L_{IDC}$또는 $L_{dis}$와 결합할 때, mehotd는 성능을 더 향상시키며 discriminative class-level feature representation가 unconfident target sample과 confident target sample간의 discrepancy를 줄이기 위해 instance contrastive alignment 를 유도할 수 있음을 증명한다. 
  • 또한 Loss을 세가지 결합했을 때, PLDCA는 best performance를 보였다. 
더보기
하이퍼파라미터 α=0.1 와 β=0.6 일 때 PLDCA가 최상의 성능을 보였다. α는 detected class를 선택하는 하이퍼 파라미터(detection confidence threshold 같음)고  β는 신뢰할 수 있는 샘플을 선택하는 하이퍼 파라미터다.(pseudo label 쪽 confidence threshold같음)

 

ConvNeXt와 MobilenetV2 같은 대표적인 모델에 대해 더 많은 실험을 수행했다.

PLDCA없는 ConvNext와 MobilenetV2모두 CU-UDA문제에서 만족할 성능을 얻을 수 없다는 것에 주목했다. (PLDCA와 결합하면 성능이 만족하게 나온다.)

추가적으로 Contrastive Alignment의 효과를 증명하기 위해 모델을 W→A adaptation 작업의 first step training 결과; PLDCA가 더 간결하고 discriminative feature represntation을 얻은 것을 볼 수 있다.

 

$ $\xi_1 $~ $ $\xi_3 $ 의 결과; 값은 모두 1로 set돼있다. 각  $ $\xi$값이 증가할 수록 성능도 올라갔지만 1을 넘는순간 성능이 급격하게 감소했다.

V. CONCLUSION AND FUTURE WORK

  • 본 논문은 PLCDA라는 source domain에서 target domain으로 calibrated knowledge를 지속적으로 전달하는, 새로운 class -incremental unsupervised domain adaptation 방법을 제안했다. 
  • source domain 에서 biased information 을 필터링하고 adaptation 과정에서 negative trasnfer을 피하기 위해 Pseudo-label distillation 을 설계했다. 
  • 또한, Contrastative Alignment는 domain-invariant representation을 얻고, discriminative target representation을 이용하도록 구성된다.
  • PLDCACI-UDA task에서 negative transfer과 catastrophic forgetting의 균형을 효과적으로 유지하며, 충분한 실험을 통해 PLDCA의 효과와 우수성을 입증했다.
  • 앞으로 source pre-trained model에 몇 가지 parameters을 도입하여 target domain의 지식을 담고자 하며, feature representation of the source domain을 보존하고자 한다. 더불어 더 많은 target classes을 학습함으로써 adaptation performance가 지속적으로(continually) 향상되기를 바란다.

<끝>