10wk: 분포, 분포함수

Author

최규빈

Published

May 9, 2023

강의영상

youtube: https://youtube.com/playlist?list=PLQqh36zP38-ymuuOEv4Zru7SF5duhH7dC

Preview

- 확률변수 \(X\)\(\Omega\)의 모든 원소를 적절한 숫자로 “잘” 연결하는 어떠한 맵핑이라는 느낌은 이해했다. 하지만 말 그대로 확률변수 \(X\)는 두 measurable space \((\Omega, {\cal F})\)\((\mathbb{R},{\cal R})\)을 잘 연결하는 어떠한 맵핑일 뿐이라서 우리가 그동안 가지고 있던 “랜덤성”에 대한 정의는 \(X\)에서 빠져있다. 즉 \(\omega \in \Omega\)의 값이 고정이면 \(X(\omega)\)의 값도 고정이다. 하지만 우리는 \(X\)가 랜덤으로 숫자가 바뀌는 (잘못된) 느낌을 가지고 살고 있었는데, 그렇다면 이러한 “랜덤성”은 어디에서 비롯한 것일까?

- \(X\)의 입력이 결정되면 출력이 고정되므로 \(X\)가 가지고 있는 “출력이 랜덤으로 변화하는 느낌”을 위해서는 함수 \(X\)의 입력 \(\omega\)가 랜덤으로 변화해야 한다. 이렇게 \(\omega\)를 랜덤하게 선택할 수 있게 만들어주는 장치가 확률측도 \(P\)이며 \(P(\{\omega\})\) \(\Omega\)에서 \(\{\omega\}\)가 선택될 확률을 의미한다. 따라서 \(P\)\(\omega\)를 랜덤으로 선택할 수 있게 해주고 그 결과 \(X(\omega)\)의 출력 역시 랜덤하게 나올 수 있도록 해준다.

- 저번시간에서는 \(X\)에 초점을 맞추었다. 즉 \(\Omega\)\(\mathbb{R}\)을 “잘 연결” 하는 작업에 초점을 맞추었다. 그 결과 \(X\)의 임의의 inverse image에 대하여 \(P\)로 그 길이를 재는데 모순됨이 없도록 하였다.

- 이번시간에는 \(P\)가 가지는 랜덤성에 초점을 맞추도록 하겠다. 특히 서로 다른 확률공간 \((\Omega, {\cal F}, P)\)\((\Omega',{\cal F}',P')\) 이 비슷한 랜덤성을 가질때, 이러한 랜덤성을 효과적으로 서술하는 “분포”라는 개념을 구체화하고 나아가 “분포함수”, “밀도함수”의 개념을 소개한다.

분포와 분포함수

분포 (distribution)

- (예제1) – 동전예제

동전을 던지는 예제로 만들어지는 아래와 같은 확률공간 \((\Omega,{\cal F},P)\) 를 생각하자.

  • \(\Omega = \{H,T\}\)
  • \({\cal F} = 2^\Omega\)
  • \(P(\{H\})=P(\{T\})=\frac{1}{2}\)1
  • 1 이렇게만 해도 확률이 정의되는 이유는 카라테오도리 확장정리 덕분

  • 확률변수 \(X:\Omega \to \mathbb{R}\)를 아래와 같이 정의하자.

    • \(X(H)=1\)
    • \(X(T)=0\)

    이제 \(B \in {\cal R}\) 에 대하여 아래와 같은 표현들을 고려하자.

    1. \(P(X \in B)\) // 고등학교 부터 쓰던 그 표현
    2. \(P(\{\omega: X(\omega) \in B\})\) // 이번에 배운 표현, 표현1의 정확한 버전
    3. \(P(X^{-1}(B))\) // 표현2의 다른 버전, inverse image의 느낌이 확 살아 있음
    4. \((P \circ X^{-1})(B)\) // 생각해보니까 이것도 가능함. \(P\), \(X\) 모두 함수였잖아?

    표현4를 좀 더 살펴보자. 기호를 간단하게 하기위해서 \(\mu_X:=P\circ X^{-1}\)로 정의하자.

    • \(P(\emptyset) = 0 \Leftrightarrow \mu_X(\emptyset) = 0\)
    • \(P(\{H\}) = \frac{1}{2} \Leftrightarrow \mu_X(\{0\}) = \frac{1}{2}\)
    • \(P(\{T\}) = \frac{1}{2} \Leftrightarrow \mu_X(\{1\}) = \frac{1}{2}\)
    • \(P(\{H,T\}) = 1 \Leftrightarrow \mu_X(\{0,1\}) = 1\)

    - (예제2) – 주머니 예제

    주머니에 하얀공과 빨간공이 하나씩 있다고 하자. 주머니에 손을 넣어 이중 하나의 공을 뽑는 시행을 한다고 하자. 이러한 상황으로 만들어지는 아래와 같은 확률공간 \((\Omega,{\cal F},P)\) 를 생각하자.

    • \(\Omega = \{R,W\}\)
    • \({\cal F} = 2^\Omega\)
    • \(P(\{R\})=P(\{W\})=\frac{1}{2}\)

    확률변수 \(X:\Omega \to \mathbb{R}\)를 아래와 같이 정의하자.

    • \(X(R)=1\)
    • \(X(W)=0\)

    이제 \(B \in {\cal R}\) 에 대하여 아래와 같은 표현들을 고려하자.

    1. \(P(X \in B)\)
    2. \((P \circ X^{-1})(B)=\mu_X(B)\)

    두 표현을 비교하여 살펴보자.

    • \(P(\emptyset) = 0 \Leftrightarrow \mu_X(\emptyset) = 0\)
    • \(P(\{R\}) = \frac{1}{2} \Leftrightarrow \mu_X(\{0\}) = \frac{1}{2}\)
    • \(P(\{W\}) = \frac{1}{2} \Leftrightarrow \mu_X(\{1\}) = \frac{1}{2}\)
    • \(P(\{R,W\}) = 1 \Leftrightarrow \mu_X(\{0,1\}) = 1\)

    - 생각의 시간1: 예제1,2를 관찰하며 생각

    • 예제1,2의 공통속성: 제1과 예제2는 어떠한 공통점이 있다. 비록 outcome, event, \(\sigma\)-field, \(P\), \(X\) 가 모두 다르지만 사실 어떻게 보면 기호의 차이만 있을 뿐 “확률과 관련된 시행이 어떠한 결과로 나타나는지”에 관련한 본질적인 면에서 같다고 볼 수 있다.2
    • \(\mu_X\)\(P\)보다 예제1,2의 공통속성3을 나타내기에 유리한 것 같은데?
  • 2 우리는 이것을 “분포”가 같다고 부르고 있어요

  • 3 우리가 이미 “분포”라고 알고 있는 개념

  • - 생각의 시간2: \(\mu_X\)는 언제나 잘 정의되는가?

    \((\Omega,{\cal F}, P)\)가 확률공간이고 \(X:\Omega \to \mathbb{R}\)이 확률변수라면, \(\mu_X:=P\circ X^{-1}\)는 언제나 잘 정의된다.

    • 시그마필드: 모든 \(B \in {\cal R}\)에 대하여 \(X^{-1}(B)\)가 시그마필드의 원소가 아닐 수 없다. (만약 그렇다면 \(X\)는 확률변수가 아닌걸?)
    • 메져: 모든 \(B \in {\cal R}\)에 대하여 \(P(X^{-1}(B))\)의 값을 모순되게 정의할 수 없다. (만약 그렇다면 \((\Omega, {\cal F}, P)\)는 확률공간이 아닌걸?)

    결론: \(\mu_X\)는 안전해!

    - 생각의 시간3: \(\mu_X\)도 확률측도의 조건을 만족한다. 구체적으로는 \((\mathbb{R}, {\cal R})\)에서의 확률측도가 된다. 아래를 체크하자.

    1. 정의역: \(\mu_X\)는 시그마필드를 정의역으로 가진다.
    2. 함수값: \(\mu_X(\emptyset)=0\), \(\mu_X(\mathbb{R})=1\) 이며 \(\mu_X(\cdot)\)은 항상 양의값을 가진다.
    3. \(\sigma\)-add: \(\mu_X\)\({\cal R}\)의 모든 서로소인 집합에 대하여 \(\sigma\)-additivity 가 성립한다.

    따라서 \(P\)\((\Omega,{\cal F})\)에서의 확률측도이듯이 \(\mu_X\)\((\mathbb{R}, {\cal R})\)에서의 확률측도이다.

    - (정의): \(X\)를 확률공간 \((\Omega, {\cal F}, P)\)에서 정의된 확률변수라고 하자. 이때 \(\mu_X:=P \circ X^{-1}\)로 정의가능한 함수 \(\mu_X: {\cal R} \to [0,1]\)\(X\)의 distribution 라고 부른다.

    여기에서 “\(X\)를 확률공간 \((\Omega, {\cal F}, P)\)에서의 확률변수”라는 말이 얼마나 많은 구질구질한 선언을 대신 하는지 생각해보라. 제대로 쓰려면 아마 “\(\Omega\)를 어떠한 실험에 의하여 발생한 outcome들의 집합이라고 하자. 그리고 \({\cal F}\)\(\Omega\)에 대한 시그마필드라고 하자. 즉 \({\cal F}\)는 … 을 만족하는 집합이다. \((\Omega, {\cal F})\)을 묶어서 가측공간이라고 하자. \(P\)는 잴 수 있는 공간 \((\Omega, {\cal F})\)에 대한 확률측도라고 하자. 즉 \(P\)는 … 를 만족하는 함수이다. 그리고 \(X\)\((\Omega,{\cal F}) \to (\mathbb{R}, {\cal R})\)인 확률변수라고 하자. 즉 \(X\)는 임의의 \(B \in {\cal R}\)에 대하여 … 를 만족하는 함수이다. 여기에서 \({\cal R}\)은 Borel sets이다. 즉 \({\cal R}\)은 … 를 만족하는 집합이다.” 와 같은 방식으로 써야할 것이다.

    - \(\mu_X\)\((\mathbb{R}, {\cal R})\)에서의 확률측도이므로 \((\mathbb{R},{\cal R},\mu_X)\)는 확률공간이 된다. 그런데 \(\mu_X\)\(X\)에 의하여 정의되므로, 확률공간 \((\mathbb{R},{\cal R},\mu_X)\) 역시 \(X\)에 의하여 정의되는데 이러한 이유로 확률공간 \((\mathbb{R}, {\cal R}, \mu_X)\)\(X\)에 의하여 유도된 확률공간이라고 표현하기도 한다.

    - \((\mathbb{R}, {\cal R}, \mu_X)\)\(X\)에 의하여 유도된 확률공간이라는 선언의 숨은 의미4: 함수 \(X\)가 잘 정의된다면 (\(X\)가 확률변수라면!) 공간 \((\Omega, {\cal F}, P)\)와 공간 \((\mathbb{R}, {\cal R}, \mu_X)\)는 대등한 역할을 한다. 즉 \(\Omega\)의 임의의 원소는 \(\mathbb{R}\)의 임의의 원소로 바꾸어 생각할 수 있고, \({\cal F}\)의 임의의 원소는 \({\cal R}\)의 임의의 원소로 대치할 수 있으며, \({\cal F}\)의 임의의 원소(event)를 측도 \(P\)로 재는 일은 \({\cal R}\)의 임의의 원소를 측도 \(\mu_X\)로 재는 일과 동치로 해석할 수 있다.

  • 4 사실 교재가 숨긴적은 없고요, 제가 그냥 몰랐던거에요.

  • 분포함수 (distribution function)

    - 모티브: \(\mu_X:{\cal R} \to [0,1]\) 는 정의역이 집합이라서 아쉬움. (솔직히 우리한테 친숙한 형태는 아님) 만약에

    • 집합 \(\to\) 숫자

    와 같은 방식으로 랜덤성을 정의하지 않고

    • 숫자 \(\to\) 숫자

    와 같은 방식으로 랜덤성을 정의할 수 있다면 어떨까?

    - 결국 랜덤성을 기술하려면 \(P\)를 기술해야한다. 그런데 \(P\)를 기술하기가 좀 까다로울 경우가 많은데 그것을 단순화 하기 위한 노력의 시작은 카라테오도리의 확장정리였다.5 그리고 이 노력의 마지막은 이제 소개하는 분포함수이다.

  • 5 이 정리가 없었다면 단순히 주사위를 던지는 사건에 대한 \(P\)를 기술하기 위해서 \(2^6\)개의 모든 \({\cal F}=2^\Omega, \Omega=\{1,2,3,4,5,6\}\)에 대하여 “집합 -> 숫자”를 일일히 기록해야 했을 것이다.

  • - (예제1) – 동전예제 다시

    동전을 던지는 예제로 만들어지는 아래와 같은 확률공간 \((\Omega,{\cal F},P)\) 를 생각하자.

    • \(\Omega = \{H,T\}\)
    • \({\cal F} = 2^\Omega\)
    • \(P(\{H\})=P(\{T\})=\frac{1}{2}\)

    확률변수 \(X:\Omega \to \mathbb{R}\)를 아래와 같이 정의하자.

    • \(X(H)=1\)
    • \(X(T)=0\)

    이제 아래와 같은 함수를 정의하자.

    \[F_X(x)=\begin{cases} 0 & x<0 \\ \frac{1}{2} & 0\leq x < 1 \\ 1 & 1 \leq x \end{cases}\]

    이 함수는 동전예제가 가지는 랜덤성을 완전히 설명한다. 즉 \(F_X:\mathbb{R} \to [0,1]\)를 정의하는 일은 \(P:{\cal F} \to [0,1]\)를 정의하는 일과 동치이다. 왜 그런지 논의하라.

    (해설)

    복습 – 강의노트 06주차 파이시스템에서의 확장이론

    Thm: \((\Omega, \sigma({\cal A}), P)\)를 확률공간이라고 하자. 여기에서 \({\cal A}\)는 파이시스템이라고 가정하자. 그렇다면 확률측도 \(P:\sigma({\cal A}) \to [0,1]\)의 값은 \(P: {\cal A} \to [0,1]\)의 값에 의하여 유일하게 결정된다.

    체크

    • \(\mu_X\)\((\mathbb{R}, {\cal R})\)에서의 확률측도이다. 따라서 \((\mathbb{R}, {\cal R}, \mu_X)\)는 확률공간이다.

    진짜해설

    \(F_X(x)=\mu_X((-\infty,x])\)로 쓸 수 있다. 따라서 모든 실수 \(x\in \mathbb{R}\)에 대하여 \(F_X(x)\)의 값을 정의하는 일은 모든 \({\cal A}=\{(-\infty,x]: x\in \mathbb{R}\}\) 에서 \(\mu_X:{\cal A} \to [0,1]\) 을 정의하는 일과 동치이다. 그런데 \({\cal A}\)는 파이시스템이므로 \({\cal A}\)에서의 \(\mu_X\)값만 결정해도 \({\cal R}\)의 모든 집합에서의 \(\mu_X\)값이 올바르게 결정된다. 그런데 공간 \((\mathbb{R}, {\cal R}, \mu_X)\)\(X\)에 의하여 유도된 공간이므로 \((\mathbb{R}, {\cal R})\)에서 \(\mu_X\)를 정의하는 일은 \(P\)를 정의하는 일과 같다.

    \(\mathbb{R}\)에서 \(F_X(x)\)를 정의 \(\Leftrightarrow\) \({\cal A}\)에서 \(\mu_X\)를 정의 \(\Leftrightarrow\) \({\cal R}\)에서 \(\mu_X\)를 정의 \(\Leftrightarrow\) \({\cal F}\)에서 \(P\)를 정의

    - (정의): \(X\)를 확률공간 \((\Omega, {\cal F}, P)\)에서 정의된 확률변수라고 하자. \(F_X: \mathbb{R} \to [0,1]\) 인 함수를 아래와 같이 정의하자.

    \[F_X(x) = \mu_X((-\infty, x])\]

    함수 \(F\)를 확률변수 \(X\)의 distribution function 이라고 한다.

    - 위의 정의에서 함수 \(F_X(x)\)\(F_X(x) = P(X\leq x)\)로 표현할 수도 있다.6

  • 6 반가운 표현의 등장

  • - (예제3) – 주사위를 던지는 예제

    분포함수의 위력을 살펴보기 위하여 주사위를 던지는 예제로 만들어지는 아래와 같은 확률공간 \((\Omega,{\cal F},P)\) 를 생각하자.

    • \(\Omega = \{1,2,3,4,5,6\}\)
    • \({\cal F} = 2^\Omega\)
    • \(P(\{1\})=\dots=P(\{6\})=\frac{1}{6}\)

    확률변수를 \(X: \Omega \to \mathbb{R}\)\(X(\omega)=\omega\)와 같이 정의하자. \(X\)의 distribution fucntion 을 구하라.

    (풀이)

    생략

    - 약속: \(X\)를 확률공간 \((\Omega, {\cal F}, P)\)에서 정의된 확률변수라고 하자. 아래와 같은 표현을 약속하자.

    • \(X \sim \mu_X\) \(\Leftrightarrow\) \(X\)의 distribution 이 \(\mu_X\)이다.
    • \(X \sim F_X\) \(\Leftrightarrow\) \(X\)의 distribution function이 \(F_X\)이다.

    - 약속2: \(X\)를 확률공간 \((\Omega_X, {\cal F}_X, P_X)\)에서 정의된 확률변수라고 하고, \(Y\)를 확률공간 \((\Omega_Y, {\cal F}_Y, P_Y)\)에서 정의된 확률변수라고 하자.

    • \(X \overset{d}{=} Y\) \(\Leftrightarrow\) \(\forall B \in {\cal R}: \mu_X(B) = \mu_Y(B)\)
    • \(X \overset{d}{=} Y\) \(\Leftrightarrow\) \(\forall k \in {\mathbb R}: F_X(k) = F_Y(k)\)
    • \(X \overset{d}{=} Y\) \(\Leftrightarrow\) \(\forall k \in {\mathbb R}: P_X(X\leq k) = P_Y(Y\leq k)\)

    만약에 랜덤성을 기술하는 언어가 \(P\)하나 뿐이었다면 “같은 분포를 가진다”와 같은 개념을 수식화 하기 불리하다.

    - Thm: 임의의 분포함수 \(F:\mathbb{R} \to [0,1]\)는 (1) 비감소 (2) \(\lim_{x \to -\infty}F(x)=0\) and \(\lim_{x \to \infty}F(x)=1\) (3) 오른쪽연속의 성질을 가진다.

    - Thm: 임의의 함수 \(F:\mathbb{R} \to \mathbb{R}\)가 (1) 비감소 (2) \(\lim_{x \to -\infty}F(x)=0\) and \(\lim_{x \to \infty}F(x)=1\) (3) 오른쪽연속의 성질을 가진다면, \(F\)는 어떠한 확률변수 \(X\)의 분포함수이다.

    밀도함수 (density function)

    - (정의) \(X\)를 확률공간 \((\Omega, {\cal F}, P)\)에서 정의된 확률변수라고 하고 \(F_X\)\(X\)의 분포함수 라고 하자. 만약에 \(F_X\)가 아래와 같은 방식으로 표현된다면 \(f_X\)\(X\)를 밀도함수 (density function) 이라고 한다.

    \[F_X(x)=\int_{-\infty}^xf_X(y)dy\]

    - 저런 표현이 존재하지 않는다면 어쩌지?