[1] -0.56047565 -0.23017749 1.55870831 0.07050839 0.12928774 1.71506499
[7] 0.46091621 -1.26506123 -0.68685285 -0.44566197
2025-10-20
예제1 – 엑스노트
그림1: 엑스노트 X300의 광고
reference: 201x년 김용대 교수님 수업을 들으며 착안한 예제..
앞의 그림을 가장 적절히 설명한 진술이 무엇이라고 생각하는가?
이제 아래의 진술이 맞을 “확률”을 생각해보자. 1,2,3중에 어떠한 문장이 참일 확률이 가장 높은가?
예제2 – 아래의 그림을 관찰하자.
그림2: 3000개의 점으로 구성된 산점도
다음 중 그림을 가장 잘 묘사한 것은?
진술 1-4가 맞을 확률은?
왜 이러한 혼란이 생기는가? 피셔는 1922년 그의 논문 “On the Mathematical Foundations of Theoretical Statistics”에서 혼란이 발생하는 원인을 아래와 같이 주장하였다.
용어가 불분명하다는 것이 무슨 의미일까?
예제1 – 애매한 언어
질문1: 공평한 동전을 던진다고 가정하자. 동전을 던저서 나오는 앞면이 나오면 \(X=0\)이라고 하고 뒷면이 나오면 \(X=1\)이라고 하자. \(X\)의 평균은 얼마인가?
질문2: 동전을 5번 던져서 \((0,1,0,0,1)\)을 얻었다고 하자. 평균이 얼마인가?
- 사람들은 알고 싶지만 오직 추정만 할 수 있는 참값(모수)과 추정 방법을 통해 도출된 값(추정치) 모두에 대해 같은 이름을 사용하는 관습이 있다.
| 구분 | 진실의 세계 | 데이터의 세계 |
|---|---|---|
| 성격 | 알고 싶지만 오직 추정만 할 수 있는 참값 (true value) | 추정 방법을 통해 도출된 특정 값 (particular value at which we happen to arrive) |
| 용어 | 모수 (parameter) | 추정치 (estimate) |
| 평균 | 모평균 \(\mu\) | 표본평균 \(\bar{x}\) |
| 표준편차 | 모표준편차 \(\sigma\) | 표본표준편차 \(s\) |
고등학교 과정 복습
- 베르누이 시행 (Bernoulli Trial)
- 확률변수 (Random Variable)
- 독립 (Independence)
- i.i.d. (independent and identically distributed)
- 모평균 (Population Mean)
- 실현치 (Realization) – data
- 표본평균 (Sample Mean)
예제1 – 명확한 언어
질문1: \(p=0.5\)인 베르누이 시행을 상상하자.1 \(X\sim B(p)\) 일때 모평균 \(\mathbb{E}(X)\)는 얼마인가?2
질문2: \(X_1,\dots,X_5 \overset{i.i.d.}{\sim}B(0.5)\)의 관측값이 \[(x_1,x_2,x_3,x_4,x_5)=(0,1,0,0,1)\]일때 표본평균 \(\bar{x}=\frac{1}{5}\sum_{i=1}^{5}x_i\)는 얼마인가?
예제2 – 애매한 언어
평균이 0이고 표준편차가 1이 정규분포가 있다고 하자. 아래는 이러한 정규분포에 10개의 data를 뽑은 결과이다.
[1] -0.56047565 -0.23017749 1.55870831 0.07050839 0.12928774 1.71506499
[7] 0.46091621 -1.26506123 -0.68685285 -0.44566197
x의 평균은 아래와 같은 코드로 계산한다.
x의 표준편차는 아래와 같이 계산한다.
만약에 정규분포에서 10개의 데이터가 아니라 더 많은 data를 얻는다면 어떻게 될까?
평균은 점점 평균에 가까워 질 것이고, 표준편차는 점점 표준편차에 가까워질 것이다. (뭐라는거야..??)
Note
아래의 표에서 ???의 값을 채워보자.
| 진실의 세계 | 데이터의 세계 |
|---|---|
| 모평균 \(\mu=???\) | 표본평균 \(\bar{x}=???\) |
| 모표준편차 \(\sigma=???\) | 표본표준편차 \(s=???\) |
예제3 – 베르누이
아래의 상황을 가정하자.
\[X_1,X_2,X_3 \overset{i.i.d.}{\sim} B(0.5)\]
이로부터 데이터를 아래와 같이 얻었다고 하자.
| 진실세계의 정보 | 데이터세계의 정보 |
|---|---|
| \(X_1,X_2,X_3 \overset{i.i.d.}{\sim} B(0.5)\) | \(x_1,x_2,x_3 = (0,1,0)\) |
예제4 – 이변량 정규분포
이제 \(n=3000\)에 대해서 아래의 상황을 생각하자.
그리고 아래의 코드를 활용하여 데이터를 얻었다.
어??! 이 그림은??
이 경우 진실의 세계와 데이터의 세계는 아래와 같이 생각할 수 있다.
그림3: 진실의 세계와 데이터의 세계
- 통찰1: 진실의 세계에서 데이터의 세계로 넘어가기 위해서는 관측이 필요하다.
- 통찰2: 진실의 세계에서 데이터의 세계로 넘어갈때만 “확률”이라는 개념이 적용된다. 즉 확률은 반드시 아래와 같은 개념으로만 사용되어야 한다.1
\[\text{진실의 세계} \overset{P}{\Longrightarrow} \text{데이터의 세계}\]
- 통찰3: 데이터의 세계는 반복 관찰 가능하다.
예제4 – 동전던지기
| 진실세계의 정보 | 데이터세계의 정보 |
|---|---|
| \(X_1,X_2,X_3 \overset{i.i.d.}{\sim} B(0.5)\) | \(x_1,x_2,x_3 = (0,1,0)\) |
예제5 – 신민아 배우님..
그림4: 엑스노트, 진실세계의 정보와 데이터세계의 정보