AI/Baseline

확률통계 1

아인샴 2022. 10. 6. 04:33

정보통신대학원 2학기 확률통계는 뭐같이 어렵다. 정신 똑바로 차리고 오늘은 1-3강까지 복습을 하자 목요일은 3-4강 토요일은 4-5강 + 재복습을 하고 질문거리를 준비할 예정이다. 

9/13일 1장 

  1. 확률이란 무엇인가
    1. Random variable  이란 : 각 관측결과가 나온 확률을 f(x)으로 가지는 함수 --?
      1. 함수라는 것은 1:1대응인데 x라는 이벤트가 발생할 확률을 연산가능해 예측할 수 있다면 랜덤하지 않은 것 아닌가?
    2. Probability distribution (확률 분포) : 어떠한 이벤트가 발생할 수 있는 확률 값
    3. p(x)란? 

 

 - PDF란 Probability Density Function  특정 구간에 속할 확률-카이제곱분포도 있었음 (https://bookdown.org/mathemedicine/Stat_book/probability-vs-likelihood.html)

포아송분포 

https://blog.naver.com/PostView.naver?blogId=iotsensor&logNo=222186167507&parentCategoryNo=&categoryNo=81&viewDate=&isShowPopularPosts=true&from=search 

 

CDF(cumulative Distribution Function) 누적 분포 함수 

https://stanford.edu/~shervine/l/ko/teaching/cs-229/refresher-probabilities-statistics

-기록

더보기

Introduction 확률과 통계 
   -무언가 어떤 , 관측하는 무언가가 계속 변한다. Random Experiment 
   -그렇다면 변하는 무언가를 올바르게 기술해야 한다.
   -동전의 앞혹은 뒤가 나올 확률을 정의해야함. contiuous한 것도 가우시안 distribution을 통해 유추할 수 있다. 
   conditional probability, expectation, momentum random variable  
   
Random variable : 각 관측결과가 나올 확률을 함숫값으로 가지는 함수
Probability distribution : 어떠한 이벤트가 발생할 수 있는 확률 값 
1p
확률을 남용해서 p(x)로 적는 것 스퀘어두 2파이 분에 1 *익스포넨셜 어쩌구 저쩌구 
p(x)가 무엇인지 애매함. 

Random variable 의 표기가 잘못된 것 같다.
   -E[x] 에 있는 좌변, 우변의 x가 서로 같은 x가 아니다. -> E[X] 라고 해야됨. x는 X로부터 얻을 수 있는 값 
   p(X=x)라고 적어야됨 사실은 
용어가 익숙해지는데 시간을 쓰면 좋을 것 같다!

Andrey Kolmogoroy 라는 러시아 수학자로부터 확률이 나왔다.
   -수학적으로 엄밀하게 정의되지 않은 개념들을 정의했음. 
   측도론 기반의 확률론 
   
랜덤변수 가질확률을 나타내는 어떤 함수 probability dencity function
pdf 랑 랜덤변수랑 어던관계가 있는가
   -pdf하나가 정의 되면 그것에 대응되는 무한가지의 랜덤변수가 있다. 
   어떤 랜덤변수를 정의할 수 있는데, pdf없이도 정의할 수 있음
   -랜덤변수 중에는 pdf가 정의할 수 없는 pdf도 있다. 
-랜덤변수란 무엇인가
   -이걸 정의하는 데 수업시간에 배울 것이다. 
   -근데 갑자기 가우시안이나 베라나 pdf같은 것들도 튀어나올 수 있음. 
      -rv를 추정할수는(?) 있으나 측도론 기반으로 정의할 수는 없다. 

-Set theory(집합론) 
   -SEt -> meature -> probability -> RV -> Random Process로 나갈 것이다. 

R실수(vector space) - 값을 비교할 수 있다. 연산할 수 있다. (operator)
   -axiom 
   -set : collections of objects 
    ⊂
    set 과 set사이의 비교임
    ∈
    원소가 집합에 속할 때 씀 
    ⊆
    subset! 부셋 
    
universal set : {x,y,z,} 가 {x,y}와 {y,z}에 대한 universal set 
disjoint sets ; 교집합이 영집합임
Cartesian proeuct : 두개의 set을 원소로 갖는데 한 개씩을 떼온다옴 한쌍의 튜플 모으는 것 
   R^3 : 3차원 공간의 실수 R*R*R 
[☆]powerset : A={1,2,3} A의 powerset 의 경우의 수 
   -모든 부분집합 : 그래서 2^A라고 함 -> 이 개념에서 cardinality가 발생
   -이 개념에서 empty set이 포함된다. 
   
카디날리티 : 절대값으로 적는다. 
   finite, infinite, countable, uncountable, denumerable
discrete 하면 confinite continuous하면 infinite 
-어떤 자연수와 1대1 대응을 할 수 있으면 countable이라고 부르기로 했음. 그래서 자연수 집합도 countable임 

0과 1사이에 있는 모든 실수들의 집합. - 어떤 정수혹은 자연수의 집합과 1:1 대응을 만들수 있으면 제한적임

1to1 correspondence : 분수가 있는데 분자와 분모가 정수를 갖는다. 
분수가 가진 세계과 정수가 가진세계가 같은 카디날리티를 가진다. 

-정수들의 집합과 분수들의 집합 두개를 보면, 

denumerable한 set은 모두 같은 cardinality를 가졌다. setof all integers 도 같다. 

uncountable 은 [0,1] 사시의 실수같은게 uncountable함 자연수의 집합보다는 크지만 지네들끼리는 같음 
모든 uncountable셋도 지들끼리 크기가 다른게 아님. 


집합론 
 0과 1사이에 있는 집합이 왜 무한대인거야!? -Cantor(칸토)의 증명임 -시발 이거 시험나올거같음 
  - C=[0,1]이 셀수 있다고 가정해보자. 
  - 그럼 sequence를 잡을 수 있는데 예네들은 denumerable함 d는 0또는 1인가봄
-0.9999가 1과 똑같다.  
 wher d_i,j={0,1} d11 d22 d33을 1-dii 로 해봤다. 
   x_new는 X에 속하지 않음. X는 C에 속하기 때문에 모순이 발생함. C 가 countable이란게 모순이기 때문에, 증명되었다! 
   -0과 1사이의 수가 d의 0,1이기 때문에 2^N_0이라고 한다. 
   
   0에서 1사이 숫자를 xi 이진법으로 모두 표현할 수 있나요?
      -경우의 수가 많아서 그렇지 가능하다. 
   1이라는게 1/2 1/4이라는 의미다.. 2진법이었음. 10진법이 아니었음 
   
   domation codomain(Y계)
   range f(U) (image of domain) codomain의 서브셋
      -range는 codomatin의 subset이 결정한다. 
   -"inverse image" of preimage
      codomain으로 떨궈지도록 만드는 모든 도메임의 모임 

R에서의 어떤B영역 observation의 확률을 구하고 싶다고 가정했을 때 
   P(B) - X^-1(B)를 구해야 B를 도출할 수 있다. 
   수학적으로 인버스 이미지의 도식 밖에서도 B가 관측될 수 있나요?
      -인버스이미지 안에서'만' 관측 될 수 있다. 
   그렇게끔 관측이 가능한 공간을 시그마 필드라고 할 것이다. 

one-to-one = injective : f(a) = f(b) => a=b
   -a랑b가 다르면, f(a)와 f(b)도 다르다! 
onto or surjective f(U) = V
   -도메인에 대한 펑션, range라는 거는 codomain과 같다. 나의 func이 codomain을 커버하고있다. 
   -역함수가 존재하는 함수라고 정의하고 있다. 
   
invertible : one-to-one and onto
   -1:1대응이다. x,y의 cardinality가 같다!
one-to-one도 아니고 onto도 아닌 함수란?

더 알고 싶다면Rudin이란 사람이 쓴 해석학 책이 있다. 

[번외]
Measure Thery, 파이라든가 공의부피라든가 그런거 
   엄밀하게 말하면 부피라는건 measure라고 부르는 구체적인 대상
   x =(a,b,c)있을때 M(a)로 하는게 아니라 M({a})로 함 subset으로 함 
   subset들의 모임 powerset 
   Given a universal set U a measure assigns a snonnegative real number to each subset of U={a,b,c,d,e} a~e가 모두 독립적으로 일어날수 있다면, 그럼 팩토리얼로 곱하겠지
   근데 a,b,가 항상 같이 일어난다면? 그럼 32개 U의 파워셋을 정의하는 것보다 (a,b)=X로 정의하고 
   U'={X,c,d,e}라고 하겟지 그럼 카디널리티가 16개로 준단말임 
   
   a collections of subsets of U
   모든가능한 컴비네이션이 아니라 서브셋들의 서브셋임(U'처럼)