AI

Herding Dynamical Weights to Learn

아인샴 2024. 6. 1. 12:21

https://icml.cc/Conferences/2009/papers/447.pdf

 

목적 : AANet의 herding이 proca의 prototype과 같은 개념인지 비교해보기 위해 잠깐 읽겠음 

Astract

  • new Herding algorithm.
    • observed moments(평균, 분산등의 수단) 로부터 direct하게 pseudo-sample을 생성한다. 
  • Psueudo-Samples
    • moments contraints로 접근하는 방식으로 샘플생성한다. data에서 발견되는 통계적 속성을 반영한 것이다. 이러한 pseudo-samples는 data에서 직접적으로 발견안되는 quantities of interest를 추정하는데 사용된다.
  • Sidestepping Traditional Approach
    • data를 표현하는 joint model을 배우는게 있는데 보통 학습하기 난해하다. 그리고 이러한 모델부터 샘플링을 하는데 모델은 local mode에 갇히기 쉽기에 최적의 솔루션을 찾기 어려울 것이다.
    • herding 알고리즘은 pseudo-sample를 생성함으로써 joint model에서 학습할 필요가 없고 직접적으로 이러한 이슈를 피한다
  • Deterministic and Efficient 
    • herding알고리즘은 fully deterministic하기에 random number generation 에 의존하지 않고 predictable하고 repeatable하다. 지수연산같은 비싼 연산을 피하기에 효율적이다. 

여기서 나는 논문을 다 읽을 시간이 없기 때문에, psueodo-sample을 검색해 나온 문장만 찾아본다. 

  • random distruption 으로 periodicallay 방해하는 마르코프 체인은 쓸 필요가 없다. 확률론적 샘플린을 다루기보다는 maximum likelihood에 집중하고 이에 상응하는 zero temperature limit(?)을 take한다. 
  • Replace sampling with Maximization 
    • 랜덤샘플생성대신 직접적으로 maximum values를 찾음으로써 deterministic approach를 사용하여 시스템을 predictable하고 repeatable하게 만든다. 
  • Deterministic Dynamical System 
    • maximization을 써서 deteministic하게 작동하는 시스템을 구축하여 랜덤성이 개입하지 않고 initial condition에완전히 결정된다는 것을 의미한다. 
  • Pseudo-Samples Satisfy Moment Constraints:
    • 시스템이 deterministic 해도 시스템이 생성하는 pseudo-sample은 여전히 그들이 충족해야 하는 statistical constrains를 충족한다. 
    • 더보기

      무작위성의 부재:

      • 무작위성을 사용하면 다양한 샘플을 생성할 수 있습니다. 예를 들어, 난수 생성기를 사용하면 다양한 분포를 가진 데이터를 생성하여 통계적 제약 조건을 쉽게 충족할 수 있습니다.
      • 그러나 결정적 시스템은 무작위성이 없기 때문에, 동일한 입력에 대해 항상 동일한 결과를 생성합니다. 따라서 다양한 샘플을 생성하는 데 어려움이 있을 수 있습니다.

      statistical constrains

      • 예를 들어, 주어진 데이터 샘플들의 평균값이 특정 값이어야 한다는 조건이 있을 수 있다.
      •  

       

그림1. Top half : "News group" dataset에 대한 herding 알고리즘으로부터 생성된 300개의 psuedo-sample sequence(sec.6) 흰 점은 문서에 특정 단어 유형이 있음을 나타낸다. (column으로 표시됨), Bottom half : 임의 순서의 Newsgroup data로, data와 pseudo-samples는 동일한 first and second 순서의 통계량을 가진다.

  • first order 통계량이란 평균, second order 통계량이란 분산,표준편차를 말한다. 

GPT한테 공통점과 차이점을 물어봤다. 

  • Pseudo-sample : 실제데이터가 아니지만, 특정 통계적 특성(statistical constrains)(평균,분산 등)를 반영하도록 생성된 샘플. herding 알고리즘에서는 관측된 moments를 기반으로 생성된다. 
  • Pseudo-labeing : 실제 라벨은 아니지만 모델 예측기반으로 생성된 라벨.