04wk-1: 측도론 intro (5)
2023-03-23
강의영상
youtube: https://youtube.com/playlist?list=PLQqh36zP38-yTpksFFUby_Twan5kFTFdm
시그마필드 motivation (2)
생각의 시간1
우리가 잴 수 있는 집합의 모임들 \({\cal F}\)라는 것은 답을 구체적으로 쓸 수는 없으나 현재까지 파악한 직관에 한정하여 아래와 같은 조건1들을 만족하는 collection이라고 “일단은” 생각할 수 있다.
1 이 조건들은 수정 및 보완 될 예정임
- \(\Omega, \emptyset \in {\cal F}\)
- \(\forall A \subset \Omega: ~ A \in {\cal F} \Rightarrow A^c \in {\cal F}\)
- \(\forall A,B \subset \Omega\) such that \(A\cap B =\emptyset\): \(A,B \in {\cal F} \Rightarrow A \cup B \in {\cal F}\)
- \(\forall A,B \subset \Omega\) such that \(A \subset B\): \(A,B \in {\cal F} \Rightarrow B-A \in {\cal F}\)
이것은 우리가 “확률”이라는 개념을 올바르게 정의하기 위해서 필요한 최소한의 합의2이다.
2 모든 사람들이 인정할 수 밖에 없는 합의
여기에서 우리가 따져볼 것은 (1) 시그마필드의 조건으로 1~4이면 충분한지 (더 많은 조건들이 필요한건 아닌지) 그리고 (2) 우리가 있었으면 하는 조건들이 꼭 필요한 조건은 맞는지 (예를들면 한두개의 조건이 다른조건을 암시하는건 아닌지) 이다.
(충분할까?)
조건 1,2,3,4 정도를 만족하는 집합으로 시그마필드를 정의해도 충분할까? 좀 더 많은 조건들이 필요한건 아닐까? 예를들면 아래와 같은 조건들이 필요한건 아닌가?
- \(\forall A,B \subset \Omega:~ A,B \in {\cal F} ~ \Rightarrow A\cap B \in {\cal F}\)
- \(\forall A,B \subset \Omega:~ A,B \in {\cal F} ~ \Rightarrow A\cup B \in {\cal F}\)
- \(\forall B_1,B_2,\dots \subset \Omega\) such that \(B_1, B_2,\dots\) are disjoint: \(B_1,B_2,\dots \in {\cal F} \Rightarrow \cup_{i=1}^{\infty}B_i \in {\cal F}\)
- \(\forall A_1,A_2,\dots \subset \Omega\): \(A_1,A_2,\dots \in {\cal F} \Rightarrow \cup_{i=1}^{\infty}A_i \in {\cal F}\)
여기에서 잠시 5,6,7,8의 의미를 살펴보자.
- 3의 확장버전이라고 볼 수 있다. 3은 “각 집합을 잴 수 있다면 서로소인 집합을 유한번 더한 집합도 잴 수 있어야 한다” 라는 의미가 된다. 7은 “각 집합을 잴 수 있다면 서로소인 집합을
셀 수 있는 무한번
더한 집합도 잴 수 있어야 한다” 라는 의미가 된다.
(예제11) – 람다시스템
\(\Omega=(0,2\pi]\) 라고 하자. \({\cal A} = \{\{x\}: x\in \mathbb{Q} \cap \Omega \}\) 이라고 할 때 아래가 성립할까?
\[\mathbb{Q} \cap \Omega \in \sigma({\cal A})\]
즉 각각의 유리수 한점씩을 잴 수 있을 때3 유리수 전체의 집합 역시 잴 수 있을까?
3 \(P(\{0\})\), \(P(\{0.21\})\), \(\dots\)를 각각 정의가능할 때
(해설1)
유리수는 셀 수 있는 무한이므로 집합 \(\mathbb{Q} \cap \Omega\)의 길이나 확률 따위는 잴 수 있다.
(해설2)
확률의 공리중 3을 살펴보면 이미 서로소인 집합의 countable union은 잴 수 있는 대상이라고 생각하고 있다. 이건 마치 “확률은 양수”이어야 한다든가, “전체확률은 1이어야” 한다는 사실처럼 당연한 사실이다.4
4 사실 일반인에게 당연하지 않을 수도 있지만 최소한 수학자들은 당연하게 생각한다. 그래서 우리도 그냥 당연하게 생각하자.
사실 납득이 되는건 아님. 그렇지만 일단은 “수학자들이 합의해서 이런건 잴 수 있다고 했어. 그러니까 잴 수 있어” 라고 이해하고 넘어가자.
생각의 시간2
이제 5,6의 성질을 살펴보자.
- \(\forall A,B \subset \Omega:~ A,B \in {\cal F} ~ \Rightarrow A\cap B \in {\cal F}\)
- \(\forall A,B \subset \Omega:~ A,B \in {\cal F} ~ \Rightarrow A\cup B \in {\cal F}\)
6의 경우는 \(A\)와 \(B\)가 서로소가 아니더라고 \(A \cup B\)를 잴 수 있느냐? 라는 것이다. (결국 이는 교집합을 잴 수 있느냐? 라는 물음과 같아서 5와 6은 같은 질문이다.)
(예제12) – 교집합을 넣을까 말까
\(\Omega=\{1,2,3,4\}\)라고 하자. 아래와 같은 \({\cal F}\)는 합리적일까?
\[{\cal F}= \big\{ \emptyset, \{1,2\}, \{1,3\}, \{1,4\},\{2,3\},\{2,4\},\{3,4\}, \Omega\big\}\]
(해설1) – 틀린해설
이러한 집합은 원칙 1-4,7 에 위배되지 않는다.
1
. \(\Omega, \emptyset \in {\cal F}\)
2
. \(\forall A \subset \Omega: ~ A \in {\cal F} \Rightarrow A^c \in {\cal F}\)
3
. \(\forall A,B \subset \Omega\) such that \(A\cap B =\emptyset\): \(A,B \in {\cal F} \Rightarrow A \cup B \in {\cal F}\)
4
. \(\forall A,B \subset \Omega\) such that \(A \subset B\): \(A,B \in {\cal F} \Rightarrow B-A \in {\cal F}\)
7
. \(\forall B_1,B_2,\dots \subset \Omega\) such that \(B_1, B_2,\dots\) are disjoint: \(B_1,B_2,\dots \in {\cal F} \Rightarrow \cup_{i=1}^{\infty}B_i \in {\cal F}\)
그런데 이 집합은
\[\{1,2\} \cap \{1,3\} = \{1\}\]
와 같은 집합이라든가,
\[\{1,2\} \cup \{1,3\} = \{1,3,4\}\]
와 같은 집합의 길이를 잴 수 없다. 따라서 아래와 같이 우리가 고등학교때 부터 써왔던 공식을 쓸 수 없다. (ref, Further consequences)
\[P(A\cup B) = P(A) + P(B) - P(A\cap B)\]
이것은 불편하니까 \(A,B\)가 잴 수 있다면, \(A,B\)의 교집합이나 합집합따위도 잴 수 있다고 정하자.
(해설1의 반론)
약속하지 않으면 “불편”하니까 약속하자라는 논리는 말이 되지 않음. 그 논리대로라면 \(\Omega\)의 모든 집합에 대하여 확률을 정의할 수 없다고 하면 “불편”하니까 약속하자라는 논리가 됨. 잴 수 있는 집합의 합집합이나 교집합을 잴 수 있다라는 근거는 없음.
(해설1의 반론의 반론) – 참고용으로만..
사실 근거가 있긴함. 즉 \(A\)와 \(B\)를 각각 잴 수 있다면 \(A\), \(B\)의 교집합도 잴 수 있음. (그렇다면 자동으로 합집합도 잴 수 있게 됨.) 이것을 지금 수준에서 엄밀하게 따지기 위해서는 “잴 수 있는 집합”의 정의를 해야하는데 지금 수준에서는 까다로움.
(해설2) – 엄밀한 해설 X
잴 수 있는 집합을 우리는 지금 까지 당연하게
- 확률을 잴 수 있는 집합들
로 생각했음, 그런데 원래 잴 수 있는 집합이라는 개념은 “선분의 길이” 따위를 모순없이 정의할 수 있는가? 즉 수직선 \(\mathbb{R}\)의 모든 부분집합의 길이라는 개념을 정의할 수 있는가? 에서 출발하였음. 즉 원래 잴 수 있는 집합이라는 의미는
- 수직선에서 길이를 잴 수 있는 집합들
이라고 생각해야함. 그렇다면 “길이”라는 개념을 다시 추상화 해야하는데 “길이”라는 개념은 아래의 원칙에 위배되면 안될 것 같음.
교집합을 잴 수 없다는 논리라면, 구간 \([a_1,b_1]\)의 길이는 잴 수 있고 구간 \([a_2,b_2]\)의 길이는 잴 수 있지만 구간 \([a_1,b_1] \cap [a_2,b_2]\)의 길이는 잴 수 없다는 말인데 이는 말이되지 않음.
결론 (엄밀한 해설은 아님): “잴 수 있다” 라는 개념은 확률, 길이에 모두 적용할 수 있어야 한다. 잴 수 있는 대상을 확률로 상상하면 \(A \in {\cal F} \Rightarrow A^c \in {\cal F}\) 인것이 당연하듯이 잴 수 있는 대상을 길이로 상상하면 \(A,B \in {\cal F} \Rightarrow A \cap B \in {\cal F}\) 임은 당연하다.
생각의 시간3
따라서 아래의 성질들은 모두 시그마필드가 가져아할 규칙들로 인정할 수 있다.
- \(\Omega, \emptyset \in {\cal F}\)
- \(\forall A \subset \Omega: ~ A \in {\cal F} \Rightarrow A^c \in {\cal F}\)
- \(\forall A,B \subset \Omega\) such that \(A\cap B =\emptyset\): \(A,B \in {\cal F} \Rightarrow A \cup B \in {\cal F}\)
- \(\forall A,B \subset \Omega\) such that \(A \subset B\): \(A,B \in {\cal F} \Rightarrow B-A \in {\cal F}\)
- \(\forall A,B \subset \Omega:~ A,B \in {\cal F} ~ \Rightarrow A\cap B \in {\cal F}\)
- \(\forall A,B \subset \Omega:~ A,B \in {\cal F} ~ \Rightarrow A\cup B \in {\cal F}\)
- \(\forall B_1,B_2,\dots \subset \Omega\) such that \(B_1, B_2,\dots\) are disjoint: \(B_1,B_2,\dots \in {\cal F} \Rightarrow \cup_{i=1}^{\infty}B_i \in {\cal F}\)
남은건 8번의 규칙이다.
- \(\forall A_1,A_2,\dots \subset \Omega\): \(A_1,A_2,\dots \in {\cal F} \Rightarrow \cup_{i=1}^{\infty}A_i \in {\cal F}\)
이 85번 규칙은 사실 56, 77번 잘 조합하면 자동으로 이끌어진다. 즉 \((5), (7) \Rightarrow (8)\). 그 외에도 “있었으면 싶은” 규칙은 모두 1-7중 적당한 것을 섞으면 만들 수 있다. 예를들어 아래와 같은 규칙을 고려하자.
5 countable union
6 교집합
7 서로소의 countable union
- \(\forall A,B \subset \Omega:~ A,B \in {\cal F} \Rightarrow A-B \in {\cal F}\)
- \(\forall A,B,C \subset \Omega: A,B,C \in {\cal F} \Rightarrow A\cup B \cup C \in {\cal F}\)
- \(\forall A_1,A_2,\dots \subset \Omega\): \(A_1,A_2,\dots \in {\cal F} \Rightarrow \cap_{i=1}^{\infty}A_i \in {\cal F}\)
규칙9는 규칙28와 59로 임플라이 할 수 있고, 규칙10은 규칙610의 확장으로 임플라이 할 수 있고, 규칙11은 규칙 211와 712로 임플라이 할 수 있다.
8 여집합
9 교집합
10 2개 집합의 합집합
11 여집합
12 서로소의 countable union
결론: 규칙 1-8으로 시그마필드를 표현하기에 충분하다.
생각의 시간4
규칙 1-8중 필요없는 규칙을 제거하자.
1
. 규칙213가 있다면, 규칙1에서 공집합은 빼도 될 것 같다.
13 여집합
14 countable union
15 disjoint union of two sets
16 2개의 합집합
17 countable union of disjoint sets
2
. 규칙814이 있다면, 규칙315, 규칙616, 규칙717은 필요 없다. 즉 규칙8은 규칙3,6,7의 효과를 모두 가진다.
3
. 규칙218와 규칙619이 있다면, 규칙520는 필요없다. 따라서 규칙221와 규칙822이 있어도 규칙5는 필요없다.
18 여집합
19 합집합
20 교집합
21 여집합
22 countable union
23 여집합
24 교집합
25 포함관계의 차집합
26 countable union
4
. 규칙223와 규칙524가 있다면 규칙425는 필요없다. 그런데 규칙5는 규칙2와 규칙826이 임플라이 하므로 결국 규칙2와 규칙8이 있다면 규칙4가 필요없다.
5
. 결론: 규칙1에서 공집합을 제외한 버전, 그리고 규칙2, 규칙8만 있으면 된다.
시그마필드의 정의
-
시그마필드, 즉 \(\Omega\)의 부분집합 중 “잴 수 있는 집합의 모임”은 Durret 교재에 의하여 아래와 같이 정의된다.
-
교재에는 \(\Omega \in {\cal F}\)이라는 조건이 빠져있는데, \(\Omega \in {\cal F}\)이라는 조건을 포함하여 기억하는 것이 편리하다. (위키등에서 일반적으로 정의할때는 \(\Omega \in {\cal F}\) 조건을 포함한다) 즉 위키와 Durret을 적당히 혼합하여 아래와 같이 정의하고 기억하는게 좋다.
(Def) Let \(\Omega\) be some set, and let \(2^{\Omega}\) represent its power set. Then a subset \({\cal F} \subset 2^\Omega\) is called a \(\sigma\)-field if it satisfies the following three properties:
- \(\Omega \in {\cal F}\)
- \(A \in {\cal F} \Rightarrow A^c \in {\cal F}\)
- \(A_1,A_2,A_3\dots \in {\cal F}\) \(\Rightarrow\) \(\cup_{i=1}^{\infty}A_i \in {\cal F}\)
-
좀 더 편리하게 아래와 같이 기억하면 좋다.
시그마필드는 잴 수 있는 집합의 모임인데 아래와 같은 규칙을 만족해야 한다. (1) 전체집합을 포함한다. (2) 여집합에 닫혀있다. (3) 가산합집합에 닫혀있다.
-
참고1: 시그마필드라는 것은 유일하게 정의되지 않는다. 즉 동일한 \(\Omega\)에 대하여 정의할 수 있는 잴수있는 집합의 모임 \({\cal F}\)는 유일하지 않다.
-
참고2: 시그마필드는 \(\Omega\)없이 단독으로 정의되지 않는다. 즉
\[{\cal F}=\{\emptyset, \{H\}, \{T\}, \{H,T\}\}\]
는 단지 그냥 시그마필드라고 주장하기 보다 \(\Omega=\{H,T\}\)에 대한 시그마필드라고 해야 정확한 표현이다.
-
참고3: 참고2에 따라서 \({\cal F}\) 단독으로 표기하는 것 보다 \(\Omega\)를 붙여서 \((\Omega,{\cal F})\)와 같이 쌍으로 표기하는게 더 합리적이다. 앞으로는 이러한 쌍을 measurable space 라고 부른다.
확률의 정의
-
지금까지의 이야기.
- \(\Omega\)의 모든 부분집합에 대해서 확률을 “무모순”으로 정의하는게 엄청 쉬운일 인줄 알았는데,27
- 사실은 그렇지가 않았다.28 확률을 정의하는건 매우 까다로운 일이었다.
- 이러한 까다로움을 해결하기 위해서 “르벡메져”라는 새로운 도구를 사용했다. 이 도구는 몇 가지 까다로운 집합에 대하여 확률을 무모순으로 정의할 수 있었다.
- 르벡메져는 구간 \([0,2\pi)\)의 모든 유리수 집합의 길이와 구간 \([0,2\pi)\)의 모든 무리수 집합의 길이를 다르게 정의하는 신기한 방식을 사용하는데, 이러한 방식을 납득하기 위한 최소한의 노력으로 “셀 수 있는 무한”과 “셀 수 없는 무한”의 개념을 공부했다.
- 하지만 르벡메져를 통해서도 \(\Omega\)의 모든 부분집합에 대하여 길이를 잴 수 없는 집합29이 존재함이 밝혀졌다.
- 따라서 \(\Omega\)의 모든 부분집합에 대해서 확률을 “무모순”으로 정의하는 일은 포기하였다.
- 대신에 \(\Omega\)의 부분집합 중, 잴 수 있는 집합들에 대해서만 확률을 “무모순”으로 정의하는 일을 시도했다.
- 이 잴 수 있는 집합들의 모임을 시그마필드라 칭하고 기호로는 \({\cal F}\)라고 정의하였다.
27 동전예제
28 바늘이 하나 있는 시계예제
29 비탈리집합
-
이제 하고 싶은 것
시그마필드에서 확률을 정의하자! \(\Leftrightarrow\) 시그마필드를 정의역으로 하는 “확률”이라는 이름의 함수를 정의하자.
-
확률의 정의: 메져(measure)는 길이따위를 일반화한 개념이다. 확률은 메져의 특수한 형태이다.30메져와 확률은 아래와 같이 정의한다.
30 메져의 조건에서 전체집합의 길이가 1이라는 제약만 있음
사실 잘 따져보면 이것은 우리가 아까 위키에서 찾아본 확률의 공리와 일치한다.
-
중요한 것: 확률은 “함수”이고 정의역이 “시그마필드”라는 것만 기억하면 된다. 즉 아래의 사실만 잘 이해하고 기억하면 된다.
적당한 가측공간 \((\Omega, {\cal F})\)이 있다고 하자. 확률 \(P\)는 정의역이 \({\cal F}\)이며 치역이 \([0,1]\)인 함수이다.
-
암기!! \(P: {\cal F} \to [0,1]\)
확률변수의 정의 (1)
불완전한 정의
-
확률변수: \(X:\Omega \to \mathbb{R}\)인 조금 특별한 성질을 가진 함수
- 정의역: \(\Omega\)
- 치역: \(\mathbb{R}\)
(예제1) 동전예제
1
. outcomes31: \(H\),\(T\).
31 outcome 자체는 집합을 의미하는게 아님
2
. sample space: \(\Omega = \{H,T\}\)
3
. event32: \(\emptyset\), \(\{H\}\), \(\{T\}\), \(\{H,T\}\).
32 event는 집합을 의미
4
. \(\sigma\)-field: \({\cal F}=\) \(\Omega\)의 모든 부분집합의 모임
5
. probability measure function: \(P: {\cal F} \to [0,1]\) such that
- \(P(\emptyset) = 0\)
- \(P(\{H\}) = \frac{1}{2}\)
- \(P(\{T\}) = \frac{1}{2}\)
- \(P(\Omega) = 1\)
6
. random variable: \(X: \Omega \to \mathbb{R}\) such that
- \(X(H)=1\)
- \(X(T)=0\)
만약에 편의상 \(\Omega=\{H,T\}=\{\omega_1,\omega_2\}\)와 같이 사용한다면
- \(X(\omega_1)=1\)
- \(X(\omega_2)=0\)
헷갈려 (1) (\(\star\star\star\))
-
질문1: 아래의 표현 중 옳은 것은?
- \(X(H)=0\)33
- \(P(\{H\})=\frac{1}{2}\)34
- \(P(\{\omega_1\})=\frac{1}{2}\)35
- \(P(H)=\frac{1}{2}\)36
- \(P(\{H,T\})=1\)37
- \(P(\omega_1)=\frac{1}{2}\)38
33 O
34 O
35 O
36 X
37 O
38 X
-
질문2: 질문1의 4
번의 표현을 많이 본적 있다. 예를들어서 고등학교에서 두 사건의 독립에 대해 배울때 아래와 같은 방식으로 표현했었다. // 출처: 네이버 블로그
두 사건 \(A\), \(B\)에 대하여 \(P(B|A) =P(B|A^c) =P(B)\) 이면 두 사건이 독립이라고 한다~~
그렇다면 이 표현은 틀린걸까?
(해설)
여기에서 사건 \(A\), \(B\)는 event을 의미하며 outcome을 의미하는게 아님. 즉 \(A\), \(B\)는 집합임.
암기: 확률은 항상 집합을 입력으로 받아야 함!!
-
질문3(\(\star\star\star\)): 수리통계 시간에서 아래와 같은 표현 본 적 있다.
\[P(X=1)=\frac{1}{2}\]
그런데 \(P\)의 입력으로는 집합이 들어가야하는데, \(X=1\)은 그냥 수식임. 그렇다면 이 표현은 틀린 표현일까??
(해설)
사실 \(P(X=1)\)의 의미는 아래와 같은 표현의 축약형이다.
\[P\big(\{\omega: X(\omega)=1 \} \big)\]
\(\{\omega: X(\omega)=1\} = \{\omega_1\} = \{H\}\) 를 의미하므로 결국
\[P(X=1)=P(\{\omega: X(\omega)=1\})=P(\{H\})\]
이 된다. 따라서 옳은 표현이다.
확률변수에 대한 통찰 (1)
-
아래와 같은 표현을 다시 관찰하자.
\[P(X=1)=P(\{\omega: X(\omega)=1\})=P(\{H\})\]
통찰1
. 확률변수가 “함수”라는 사실을 떠올리고 \(1\)이라는 값이 확률변수의 “상(image)” 라는 사실을 떠올리면, \(\{\omega: X(\omega)=1\}\)은 1에 대한 “역상(inverse image)”이라고 해석할 수 있다.39
39 참고로 image는 수학책에서 3가지 뜻으로 혼용해서 쓰이는데, 이 문맥에서는 “Image of an element”를 의미함. ref
통찰2
. 확률변수의 상은 \(\mathbb{R}\)에 맺히게 되고, 확률변수의 역상은 \(\Omega\)의 부분집합 중 하나에 맺히게 된다.
통찰3
. 문제는 확률변수의 역상이 항상 잴 수 있는 집합에 맺힌다는 보장이 있냐라는 것이다… 즉 이 예제로 한정하면
\[\{\omega: X(\omega)=1\} \in {\cal F}\]
임을 보장해야 한다는 것이다.
통찰4
. 당연히 이러한 보장을 할 수는 없어보인다. 따라서 \(X\)를 단지 그냥
- \(X: \mathbb{\Omega} \to \mathbb{R}\)로 가는 함수
가 아니라
- \(X: \mathbb{\Omega} \to \mathbb{R}\)로 가는 함수 & 역상이 항상 잴 수 있는 집합이어야 함.
이라는 조건이 필요하다.
-
역상이 잴 수 있는 집합인 함수를 간단히 잴 수 있는 함수 (measurable function) 라고 한다.