2025-11-11
# 예비학습
아래를 관찰하자.
| \(f(x)\) | \(\{f(x)\}^5\) |
|---|---|
| 0.1231 | ?? |
| -0.2342 | ?? |
| 0.3555 | ?? |
??의 값 중 에서 가장 큰값은? 그 다음 큰 값은??
#
# 예비학습
\(f(x)>0\)일때 \(f(x)\)를 최대로 만드는 \(x\)값은 \(\log f(x)\) 역시 최대로 만든다.
(이유?)
| \(f(x)\) | \(\log(f(x))\) |
|---|---|
| 1.3 | ?? |
| 2.3 | ?? |
| 0.8 | ?? |
| 11.2 | ?? |
| 0.01 | ?? |
??의 값 중 에서 가장 큰값은? 그 다음 큰 값은??
#
# 예제1
앞면이 확률이 \(\theta\)인 동전을 10번 던져서 아래와 같이 나왔다고 하자.
가능도함수 \(L(\theta)=\theta^5 (1-\theta)^5\)를 최대화하는 \(\theta\)를 이론적으로 계산하라.
(풀이)
가능도 함수는
\[L(\theta)=\{\theta(1-\theta)\}^5\]
이고 \(\theta(1-\theta)\)를 최대화 하는 값이 곧 \(L(\theta)\)를 최대화한다. 그런데 \(\theta(1-\theta)\)는 \(\theta=\frac{1}{2}\)에서 최대값을 가지므로 가능도함수를 최대화하는 \(\theta\)는 \(\frac{1}{2}\)이라 할 수 있다.
# 예제2
앞면이 나올 확률이 \(\theta\)인 동전을 7번 던져서 아래와 같이 나왔다고 하자.
가능도함수 \(L(\theta)=\theta^4 (1-\theta)^3\)를 최대화하는 \(\theta\)를 이론적으로 계산하라.
(풀이)
\(L(\theta)=\theta \times \{\theta(1-\theta)\}^3\)로 표현할 수 있다. 여기에서 편의상
이라고 놓자. \(L(\theta)\)를 최대화하기 위해서 \(A\)입장에서는 \(\theta=1\)이었으면 좋겠는데 \(B\)입장에서는 \(\theta=\frac{1}{2}\)이었으면 좋겠다. 의견이 일치하지 않아서 투표를 하고 싶은데 \(A\)는 비유적으로 말하면 한명의 의견이 반영된것이고 \(B\)는 6명의 의견이 반영된 것이라 해석할 수 있다. 따라서 아래와 같이 해석해야 적당하다.
\[\frac{1}{7} \times 1 + \frac{6}{7} \times \frac{1}{2} = \frac{4}{7}\]
# 예제3
앞면이 나올 확률이 \(\theta\)인 동전을 4번 던져서 아래와 같이 나왔다고 하자.
가능도함수 \(L(\theta)=\theta (1-\theta)^3\)를 최대화하는 \(\theta\)를 이론적으로 계산하라.
(풀이)
두명은 \(\theta=\frac{1}{2}\)이 합리적이라 생각하지만 두명은 \(\theta=0\)이 합리적이라 생각한다. 따라서 \(\theta=\frac{\frac{1}{2}+0}{2}=\frac{1}{4}\)이 되어야겠다.
(풀이2) – 미분좋아하면 미분을 써도된다.
\(L'(\theta)=0\)을 풀면, \(L'(\theta)=-(4\theta^3-9\theta^2+6\theta-1)=-(\theta-1)^2(4\theta-1)\). 따라서 \(L'(\theta)\)는 \(\theta=\frac{1}{4}, 1\)에서 극값을 가진다. 개형을 그려보면 \(\theta=\frac{1}{4}\)에서 함수가 최대화된다.
(풀이3) – 통계학과에서는 보통 풀이2보다는 로그+미분을 쓴다.
그래프의 개형 따질 필요 없이 \(l''(\theta)<0\)이면 concave함수이고 따라서 극값=최대값이다. 이제 \(l'(\theta)=0\)을 풀어보자. 풀어보면 \(\theta=\frac{1}{4}\)이 정리된다.
# 예제4
앞면이 확률이 \(\theta\)인 동전을 10번 던져서 아래와 같이 나왔다고 하자.
가능도함수 \(L(\theta)\)를 \(x_1,\dots,x_{10}\)에 대응하는 수식으로 표현하라.
(풀이) 가능도함수는 아래와 같다.
\[L(\theta|data)=P(data|\theta)=P(X_1=x_1)\times \dots \times P(X_{10}=x_{10})\]
그런데
이다. 따라서 정리하면
위의 논의가 \(10\)개의 data가 아닌 일반적인 \(n\)개의 data에서도 성립하므로, 좀 더 일반적으로는
\[X_1,\dots,X_{n} \overset{iid}{\sim} Ber(\theta) \Rightarrow L(\theta)=(1-\theta)^{n-\sum x_i} \times \theta^{\sum x_i}\]
와 같이 쓸 수 있다.
#
# 예제5
앞면이 확률이 \(\theta\)인 동전을 n번 던져서 아래와 같이 나왔다고 하자.
가능도함수 \(L(\theta)\)를 최대화하는 \(\theta\)를 서술하라.
(풀이1) 가능도함수는 아래와 같다.
\[L(\theta)=(1-\theta)^{n-\sum x_i} \times \theta^{\sum x_i}\]
뒷면이 \(n_0\)나오고 앞면이 \(n_1\)나왔다고 하자. (주의: \(n_0+n_1=n\) 이고, \(n_1=\sum_i x_i\)임.)
(case1: \(n_0<n_1\))
가능도 함수 \(L(\theta)\)는
\[\frac{1}{2} \times \frac{2n_0}{n} + 1 \times \frac{n-2n_0}{n}=\frac{n-n_0}{n}=\frac{n_1}{n}\]
에서 최대값을 가진다. 그런데 \(n_1 = \sum x_i\)임을 이용하면 \(\theta\)는 \(\frac{1}{n}\sum_{i=1}^{n}x_i=\bar{x}\)에서 최대값을 가진다.
(case2: \(n_0>n_1\))
가능도 함수 \(L(\theta)\)는
\[\frac{1}{2} \times \frac{2n_1}{n} + 0 \times \frac{n-2n_1}{n}=\frac{n_1}{n}\]
에서 최대값을 가진다. 앞의경우랑 같다! 따라서 이 경우도 \(\theta=\bar{x}\)에서 \(L(\theta)\)가 최대값을 가진다라고 볼 수 있다.
(case3: \(n_0=n_1\))
가능도 함수 \(L(\theta)\)는 \(\theta=\frac{1}{2}\)에서 최대화가 된다. 그런데 이 경우 \(\bar{x}=\frac{1}{2}\)이므로 이때도 \(\theta=\bar{x}\)에서 \(L(\theta)\)가 최대값을 가진다고 볼 수 있다.
결론: \(X_1,\dots,X_{n} \overset{iid}{\sim} Ber(\theta)\) 이라면
- 우도함수는 항상 \(L(\theta)=(1-\theta)^{n-\sum x_i} \times \theta^{\sum x_i}\) 이런 모양을 가지고,
- 우도함수는 \(\theta=\bar{x}\)에서 최대값을 가진다.
따라서 \(X_1,\dots,X_{n} \overset{iid}{\sim} Ber(\theta)\) 에서 \(\theta\)를 최대가능도 기법으로 추정하기 위해서는 \(\bar{x}\)를 쓰면 된다. (이렇게 당연한 결론을 꼭 이렇게 한참 설명해야하는것일까?)
# 예제6
분산이 1인 정규분포에서 아래와 같은 데이터를 관찰했다고 가정하자.
최대가능도기법으로 평균을 추정하라.
(풀이)
가능도함수는 아래와 같이 쓸 수 있다.
\[L(\mu)=\frac{1}{\sqrt{2\pi}} e^{-\frac{(-1.4805676-\mu)^2}{2}}\times\dots\times\frac{1}{\sqrt{2\pi}} e^{-\frac{(0.4280148-\mu)^2}{2}}\]
좀 더 일반적으로는 아래와 같이 쓸 수 있다.
\[L(\mu)=\frac{1}{\sqrt{2\pi}} e^{-\frac{(x_1-\mu)^2}{2}}\times\dots\times\frac{1}{\sqrt{2\pi}} e^{-\frac{(x_{10}-\mu)^2}{2}}\]
좀 더 정리하면 아래와 같은 꼴로 나타낼 수 있다.
\[L(\mu)=\left(\frac{1}{\sqrt{2\pi}}\right)^{10} e^{-\frac{(x_1-\mu)^2}{2} - \dots -\frac{(x_{10}-\mu)^2}{2}}\]
따라서 \(L(\mu)\)를 최대화하는 일은 사실 아래의 함수를 최대화하는 일과 같다.
\[\left(-\frac{(x_1-\mu)^2}{2}\right)+ \dots + \left(-\frac{(x_{10}-\mu)^2}{2}\right)\]
따라서 \(\mu=\frac{x_1+\dots+x_n}{n}=\bar{x}\)에서 최대값을 가진다. (약간 점프가 있죠? 좋아하는 방식대로 답을 도출해보세요) 따라서