13wk-1: 연습문제 (1)
역확률
1. 다음은 08wk-1의 엑스노트 광고에 대한 진술이다.

- 신민아가 고층빌딩에서 엑스노트를 벽면유리에 테잎을 붙여 프리젠테이션을 하고 있다.
- 젋은여성이 노트북을 활용하여 프리젠테이션을 하고 있다.
- 여성이 프리젠테이션을 하고 있다.
아래는 위의 그림(예제1)을 통해 통계학적 개념의 혼란을 논의하는 학생들의 대화이다. 피셔(R. A. Fisher)의 이론에 근거했을 때, 적절한 진술을 모두 고르시오.
- 학생 A: 광고 그림(데이터)이 주어졌을 때, ’신민아가 엑스노트를 활용해 프리젠테이션을 하고 있다’는 진술(1번)이 ’여성이 프리젠테이션을 하고 있다’는 진술(3번)보다 훨씬 더 구체적으로 관찰된 사실을 묘사하고 있어. 따라서 1번 진술이 가장 정확한 설명이라고 생각해.
- 학생 B: 설명의 ’정확성’과 ’확률’은 구분해야 해. 우리가 그림이 참일 ’확률’을 따진다면, 가장 범위가 넓고 포괄적인 3번 진술이 참일 확률이 가장 높지. 1번 진술이 참이 되기 위해서는 신민아, 고층빌딩, 엑스노트 등 모든 구체적인 조건이 맞아야 하니까 확률은 가장 낮아.
- 학생 C: 나는 A와 B의 주장이 충돌하는 이유가 피셔가 지적한 확률에 대한 혼란 때문이라고 봐. 이 예제에서 우리는 이미 데이터의 세계에 해당하는 그림을 관측한 상태인데, 그 상황에서 ’참일 확률이 높은 진술’을 묻는 질문 자체가 잘못된 방향성을 내포하고 있어.
- 학생 D: C의 말대로, 피셔는 ’진실의 세계’에서 ’데이터의 세계’로 넘어갈 때만 “확률”이라는 개념이 적용되어야 한다고 생각했어. 이 예시처럼 데이터가 고정된 상황에서 그 데이터를 만들어냈을 ’진실’이나 ’모델’에 대해 확률을 부여하는 것은 적절하지 않아.
2. 다음은 베르누이 시행의 관측치 \((x_i)\)를 통해 모수를 해석하는 과정에서 학생들이 나눈 대화이다. \(X_1, X_2, X_3 \overset{i.i.d.}{\sim} B(0.5)\)가 주어져 있으며, 실제 관측값은 \((0, 1, 0)\)이다. 피셔(R. A. Fisher)의 관점에 의하여, 확률 개념 적용의 오류를 가장 잘 비판하고 있는 진술을 고르시오.
- 학생 A: 우리가 얻은 관측치 \((0,1,0)\)을 보면, 동전이 공평하다는 가정 \(p = 0.5\)가 틀렸을 확률이 얼마나 되는지 계산해야 하지 않을까?
- 학생 B: 피셔의 통찰에 따르면, 확률은 진실의 세계가 주어졌을 때 관측 데이터가 나타날 가능성을 측정하는 데 사용해야 한다. 따라서 \(p = 0.5\)가 참이라면, 관측치 \((0,1,0)\)이 나올 확률은 \(0.5 \times 0.5 \times 0.5 = \frac{1}{8}\).
- 학생 C: B의 설명이 맞다면, A처럼 ’진실세계의 정보가 틀렸을 확률’을 묻는 것은 확률의 방향성을 거꾸로 적용하는 셈이다.
- 학생 D: 난 A의 말이 더 자연스러운 것 같아. 이미 데이터를 봤으니까, 이 데이터를 기준으로 \(p\)가 0.5가 아닐 확률도 당연히 계산할 수 있어야 하지 않을까?
평균과 평균?
문제 배경: 피셔(R. A. Fisher)는 통계학의 기본적인 혼란이 용어가 불분명해서 발생한다고 지적했으며, 특히 참값과 도출된 특정 값에 같은 이름을 붙이는 관습을 비판했다.
1. 피셔가 같은 이름을 사용하는 관습이 혼란을 야기한다고 지적한 통계적 쌍은 다음 중 무엇인가?
- A: 확률변수 \(X\)와 확률분포 \(P\)
- B: 모수와 추정치
- C: 독립 (Independence)과 동일한 분포 (Identically Distributed)
- D: 실현치 (Realization)와 관측 행위 (Observation)
2. 어떤 확률변수 \(X\)가 성공 확률 \(p=0.5\)인 베르누이 분포(\(X \sim \text{Bernoulli}(0.5)\))를 따른다고 가정하자. 여기서 \(X\)는 성공(1) 또는 실패(0)의 결과를 숫자로 대응시키는 함수이다. 이 확률변수 \(X\)의 모평균 \(\mathbb{E}(X)\) (기댓값)은 얼마인가?
3. 1의 분포를 따르는 시행을 5번 반복하여 \(\{0, 1, 0, 0, 1\}\)이라는 구체적인 실현치(\(x_1, \dots, x_5\))를 얻었다고 하자. 이 관측값들의 산술평균인 표본평균 \(\bar{x}\)은 얼마인가?
4. 다음 중 통계학에서 모수의 성격을 가장 정확하게 설명하는 진술은 무엇인가?
- A: 관측치들의 산술평균으로, 표본에서 실제로 계산되는 값이다.
- B: 추정 방법을 통해 도출된 특정 값이다.
- C: 모집단의 분포를 특정하며, 알고 싶지만 오직 추정만 할 수 있는 참값이다.
- D: 확률변수를 관측하여 얻은 구체적인 실제값(실현치)들의 집합이다.
5. 성공 확률 \(p=0.5\)인 베르누이 분포 \(X \sim Bernoulli(0.5)\)가 있다고 가정하자. 5번의 시행을 통해 관측값 \(\{0,1,0,0,1\}\)을 얻었을 때, 모평균 \(E(X)\)와 이 관측값들의 표본평균 \(\bar{x}\)에 대한 설명으로 옳은 것은?
- A: 모평균은 0.5이며 (모수), 표본평균은 0.4이다 (추정치).
- B: 모평균은 0.4이며, 표본평균은 0.5이다.
- C: 모평균과 표본평균은 같은 개념이므로 항상 0.5로 일치해야 한다.
- D: 모평균 \(E(X)\)는 표본평균 \(\bar{x}\)를 추정하기 위해 사용되는 참값이다.
6. 다음문항의 참/거짓을 판단하라.
- 모수는 표본에서 계산된 값이고, 추정치는 모집단의 참값이다.
- 데이터에서 계산한 평균값은 모수이다.
- \(X \sim \text{Bernoulli}(0.5)\)에서 한 번 시행하여 얻은 값 1은 실현치이다.
- 실현치는 시행할 때마다 달라질 수 있지만, 확률변수의 분포는 변하지 않는다.
- CSV 파일에 저장된 키 데이터 168, 175, 182는 확률변수의 실현치로 볼 수 있다.
- 표본평균은 분포를 모르더라도 구할 수 있다.
- 표본평균과 모평균은 항상 같은 값을 가진다.
- 동일한 분포에서 서로 다른 표본을 추출하면, 각 표본의 표본평균은 서로 다를 수 있다.
- 모평균 \(\mathbb{E}(X)\)를 계산하려면 반드시 관측 데이터가 필요하다.
- 추정치는 표본이 달라지면 함께 달라지지만, 모수는 고정된 값이다.
- 모평균을 알면 표본평균도 자동으로 알 수 있다.
- 동전을 100번 던져 앞면이 48번 나왔다면, 48/100은 앞면이 나올 확률 \(p\)의 추정치이다.
- 추정치가 모수와 다르다면 추정 방법이 잘못된 것이다.