[TIL]확률분포1
확률분포와 관련된 식들이 실제로 코드에서 어떻게 구현되어 사용되는지 같이 실습해볼 수 있어 좋았다.
- 밀도추정(Density Estimation): $N$개의 관찰데이터(observations) $\mathbf{x}_1,\ldots\mathbf{x}_N$가 주어졌을 때 분포함수 $p(\mathbf{x})$를 찾는 것
- $p(\mathbf{x})$를 파라미터화된 분포로 가정한다.
- 분포의 파라미터를 찾는다.
- 파라미터를 통해 예측할 수 있다.
- 이항변수(Binary Variables): 빈도주의 방법
- 빈도주의 방법에서는 $\mu$ 값을 우도함수를 최대화시키는 값으로 구할 수 있다.
- 또는 로그우도함수를 최대화시킬 수도 있다.
- N이 작은 경우에 최대우도추정치(MLE)는 과적합된다.
- 이항변수(Binary Variables): 베이지언 방법
- 이항분포 : $\mathcal{D} = {x_1,\ldots,x_N}$일 때, 이항변수 $x$가 1인 경우를 $m$번 관찰할 확률
- 베이지안 방법을 쓰기 위해서 데이터의 우도를 구해야 하는데 이항분포를 가정하면 우도함수가 하나의 변수 $m$으로($x_1,\ldots,x_N$ 대신) 표현가능하므로 간편해진다.
- 베이지언 방법으로 문제를 해결하기 위해 베타분포를 켤레사전분포(conjugate prior)로 사용한다.
- 다항변수(Multinomial Variables): 빈도주의 방법
-
$\mu$의 최대우도 추정치(maximum likelihood estimate)를 구하기 위해선 $\mu_k$의 합이 1이 된다는 조건하에서 $\ln p(\mathcal{D} \pmb \mu)$을 최대화시키는 $\mu_k$를 구해야 한다. 라그랑주 승수(Lagrange multiplier) $\lambda$를 사용한다.
-
- 다항변수(Multinomial Variables): 베이지언 방법
- 다항분포 : 파라미터 $\pmb \mu$와 전체 관찰개수 $N$이 주어졌을 때 $m_1,\ldots,m_K$의 분포
- 디리클레 분포(Dirichlet distribution): 다항분포를 위한 켤레사전분포
- Uniform Distribution
- Bernoulli Distribution
- Beta Distribution
- Multinomial Distribution