11wk-1: 최대가능도추정 (2) (R, 참고자료)

Author

최규빈

Published

November 12, 2025

강의영상

  • 본 강의노트로는 강의를 하지 않음.

최대가능도추정 (손으로만)

# 예비학습

아래를 관찰하자.

\(f(x)\) \(\{f(x)\}^5\)
0.1231 ??
-0.2342 ??
0.3555 ??

??의 값 중 에서 가장 큰값은? 그 다음 큰 값은??

#


# 예비학습

\(f(x)>0\)일때 \(f(x)\)를 최대로 만드는 \(x\)값은 \(\log f(x)\) 역시 최대로 만든다.

(이유?)

\(f(x)\) \(\log(f(x))\)
1.3 ??
2.3 ??
0.8 ??
11.2 ??
0.01 ??

??의 값 중 에서 가장 큰값은? 그 다음 큰 값은??

#


# 예제1

앞면이 확률이 \(\theta\)인 동전을 10번 던져서 아래와 같이 나왔다고 하자.

  • data: 0, 1, 0, 0, 1, 1, 1, 0, 1, 0

가능도함수 \(L(\theta)=\theta^5 (1-\theta)^5\)를 최대화하는 \(\theta\)를 이론적으로 계산하라.

(풀이)

가능도 함수는

\[L(\theta)=\{\theta(1-\theta)\}^5\]

이고 \(\theta(1-\theta)\)를 최대화 하는 값이 곧 \(L(\theta)\)를 최대화한다. 그런데 \(\theta(1-\theta)\)\(\theta=\frac{1}{2}\)에서 최대값을 가지므로 가능도함수를 최대화하는 \(\theta\)\(\frac{1}{2}\)이라 할 수 있다.


# 예제2

앞면이 나올 확률이 \(\theta\)인 동전을 7번 던져서 아래와 같이 나왔다고 하자.

  • data: 0, 1, 0, 0, 1, 1, 1

가능도함수 \(L(\theta)=\theta^4 (1-\theta)^3\)를 최대화하는 \(\theta\)를 이론적으로 계산하라.


(풀이)

\(L(\theta)=\theta \times \{\theta(1-\theta)\}^3\)로 표현할 수 있다. 여기에서 편의상

  • \(A = \theta\)
  • \(B = \{\theta(1-\theta)\}^3\)

이라고 놓자. \(L(\theta)\)를 최대화하기 위해서 \(A\)입장에서는 \(\theta=1\)이었으면 좋겠는데 \(B\)입장에서는 \(\theta=\frac{1}{2}\)이었으면 좋겠다. 의견이 일치하지 않아서 투표를 하고 싶은데 \(A\)는 비유적으로 말하면 한명의 의견이 반영된것이고 \(B\)는 6명의 의견이 반영된 것이라 해석할 수 있다. 따라서 아래와 같이 해석해야 적당하다.

\[\frac{1}{7} \times 1 + \frac{6}{7} \times \frac{1}{2} = \frac{4}{7}\]


# 예제3

앞면이 나올 확률이 \(\theta\)인 동전을 4번 던져서 아래와 같이 나왔다고 하자.

  • data: 0, 1, 0, 0,

가능도함수 \(L(\theta)=\theta (1-\theta)^3\)를 최대화하는 \(\theta\)를 이론적으로 계산하라.

(풀이)

두명은 \(\theta=\frac{1}{2}\)이 합리적이라 생각하지만 두명은 \(\theta=0\)이 합리적이라 생각한다. 따라서 \(\theta=\frac{\frac{1}{2}+0}{2}=\frac{1}{4}\)이 되어야겠다.


(풀이2) – 미분좋아하면 미분을 써도된다.

  • \(L(\theta)=\theta (1-\theta)^3= \theta - 3\theta^2 + 3\theta^3 - \theta^4\)
  • \(L'(\theta)=1-6\theta+9\theta^2-4\theta^3\)

\(L'(\theta)=0\)을 풀면, \(L'(\theta)=-(4\theta^3-9\theta^2+6\theta-1)=-(\theta-1)^2(4\theta-1)\). 따라서 \(L'(\theta)\)\(\theta=\frac{1}{4}, 1\)에서 극값을 가진다. 개형을 그려보면 \(\theta=\frac{1}{4}\)에서 함수가 최대화된다.


(풀이3) – 통계학과에서는 보통 풀이2보다는 로그+미분을 쓴다.

  • \(\log L(\theta)=l(\theta) = \log\theta + 3\log(1-\theta)\)
  • \(l'(\theta)=\frac{1}{\theta}-\frac{3}{1-\theta}\)
  • \(l''(\theta) = -\frac{1}{\theta^2} - \frac{3}{(1-\theta)^2} < 0\)

그래프의 개형 따질 필요 없이 \(l''(\theta)<0\)이면 concave함수이고 따라서 극값=최대값이다. 이제 \(l'(\theta)=0\)을 풀어보자. 풀어보면 \(\theta=\frac{1}{4}\)이 정리된다.


# 예제4

앞면이 확률이 \(\theta\)인 동전을 10번 던져서 아래와 같이 나왔다고 하자.

  • data: \((x_1,\dots,x_{10})=(0, 1, 0, 0, 1, 1, 1, 0, 1, 0)\)

가능도함수 \(L(\theta)\)\(x_1,\dots,x_{10}\)에 대응하는 수식으로 표현하라.

(풀이) 가능도함수는 아래와 같다.

\[L(\theta|data)=P(data|\theta)=P(X_1=x_1)\times \dots \times P(X_{10}=x_{10})\]


그런데

  • \(P(X_1=x_1)=(1-\theta)^{1-x_1}\theta^{x_1} \overset{x_1=0}{\Longrightarrow} P(X_1=0)=1-\theta\)
  • \(P(X_2=x_2)=(1-\theta)^{1-x_2}\theta^{x_2} \overset{x_2=1}{\Longrightarrow} P(X_2=1)=\theta\)
  • \(\dots\)
  • \(P(X_{10}=x_{10})=(1-\theta)^{1-x_{10}}\theta^{x_{10}} \overset{x_{10}=0}{\Longrightarrow} P(X_{10}=0)=1-\theta\)

이다. 따라서 정리하면

  • \(L(\theta|data)=(1-\theta)^{10-(x_1+\dots+x_{10})} \times \theta^{(x_1+\dots+x_{10})} \overset{data=(0,1,\dots,0)}{\Longrightarrow} (1-\theta)^5 \theta^5\)

위의 논의가 \(10\)개의 data가 아닌 일반적인 \(n\)개의 data에서도 성립하므로, 좀 더 일반적으로는

\[X_1,\dots,X_{n} \overset{iid}{\sim} Ber(\theta) \Rightarrow L(\theta)=(1-\theta)^{n-\sum x_i} \times \theta^{\sum x_i}\]

와 같이 쓸 수 있다.

#


# 예제5

앞면이 확률이 \(\theta\)인 동전을 n번 던져서 아래와 같이 나왔다고 하자.

  • data: \(x_1,\dots,x_n\)

가능도함수 \(L(\theta)\)를 최대화하는 \(\theta\)를 서술하라.


(풀이1) 가능도함수는 아래와 같다.

\[L(\theta)=(1-\theta)^{n-\sum x_i} \times \theta^{\sum x_i}\]

뒷면이 \(n_0\)나오고 앞면이 \(n_1\)나왔다고 하자. (주의: \(n_0+n_1=n\) 이고, \(n_1=\sum_i x_i\)임.)

(case1: \(n_0<n_1\))

가능도 함수 \(L(\theta)\)

\[\frac{1}{2} \times \frac{2n_0}{n} + 1 \times \frac{n-2n_0}{n}=\frac{n-n_0}{n}=\frac{n_1}{n}\]

에서 최대값을 가진다. 그런데 \(n_1 = \sum x_i\)임을 이용하면 \(\theta\)\(\frac{1}{n}\sum_{i=1}^{n}x_i=\bar{x}\)에서 최대값을 가진다.


(case2: \(n_0>n_1\))

가능도 함수 \(L(\theta)\)

\[\frac{1}{2} \times \frac{2n_1}{n} + 0 \times \frac{n-2n_1}{n}=\frac{n_1}{n}\]

에서 최대값을 가진다. 앞의경우랑 같다! 따라서 이 경우도 \(\theta=\bar{x}\)에서 \(L(\theta)\)가 최대값을 가진다라고 볼 수 있다.


(case3: \(n_0=n_1\))

가능도 함수 \(L(\theta)\)\(\theta=\frac{1}{2}\)에서 최대화가 된다. 그런데 이 경우 \(\bar{x}=\frac{1}{2}\)이므로 이때도 \(\theta=\bar{x}\)에서 \(L(\theta)\)가 최대값을 가진다고 볼 수 있다.

결론: \(X_1,\dots,X_{n} \overset{iid}{\sim} Ber(\theta)\) 이라면

  1. 우도함수는 항상 \(L(\theta)=(1-\theta)^{n-\sum x_i} \times \theta^{\sum x_i}\) 이런 모양을 가지고,
  2. 우도함수는 \(\theta=\bar{x}\)에서 최대값을 가진다.

따라서 \(X_1,\dots,X_{n} \overset{iid}{\sim} Ber(\theta)\) 에서 \(\theta\)를 최대가능도 기법으로 추정하기 위해서는 \(\bar{x}\)를 쓰면 된다. (이렇게 당연한 결론을 꼭 이렇게 한참 설명해야하는것일까?)


# 예제6

분산이 1인 정규분포에서 아래와 같은 데이터를 관찰했다고 가정하자.

x = c(-1.4805676,  1.5771695, 0.9567445, -0.9200052, -1.9976421, 
     -0.2722960, -0.3153487, -0.6282552, -0.1064639,  0.4280148)

최대가능도기법으로 평균을 추정하라.

(풀이)

가능도함수는 아래와 같이 쓸 수 있다.

\[L(\mu)=\frac{1}{\sqrt{2\pi}} e^{-\frac{(-1.4805676-\mu)^2}{2}}\times\dots\times\frac{1}{\sqrt{2\pi}} e^{-\frac{(0.4280148-\mu)^2}{2}}\]

좀 더 일반적으로는 아래와 같이 쓸 수 있다.

\[L(\mu)=\frac{1}{\sqrt{2\pi}} e^{-\frac{(x_1-\mu)^2}{2}}\times\dots\times\frac{1}{\sqrt{2\pi}} e^{-\frac{(x_{10}-\mu)^2}{2}}\]


좀 더 정리하면 아래와 같은 꼴로 나타낼 수 있다.

\[L(\mu)=\left(\frac{1}{\sqrt{2\pi}}\right)^{10} e^{-\frac{(x_1-\mu)^2}{2} - \dots -\frac{(x_{10}-\mu)^2}{2}}\]

따라서 \(L(\mu)\)를 최대화하는 일은 사실 아래의 함수를 최대화하는 일과 같다.

\[\left(-\frac{(x_1-\mu)^2}{2}\right)+ \dots + \left(-\frac{(x_{10}-\mu)^2}{2}\right)\]

따라서 \(\mu=\frac{x_1+\dots+x_n}{n}=\bar{x}\)에서 최대값을 가진다. (약간 점프가 있죠? 좋아하는 방식대로 답을 도출해보세요) 따라서

sum(x)/10
[1] -0.275865