일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 대학원 급여
- 자바 영화 api
- pandas
- 경사하강법
- 딥러닝
- python
- 통계학
- 디자인패턴
- 의료 ai 대학원 월급
- 딥러닝 실험 깃 버전관리
- 인공지능
- 정규화
- 자바
- 영화 api
- API
- DCP
- 로스트아크
- 코딩테스트
- 디자인 패턴
- MLP
- 자바 프로젝트
- 인공지능 깃 버전관리
- 활성화 함수
- C# 프로젝트
- 대학원 월급
- 백준
- Dehaze
- 머신러닝
- 파이썬 경사하강법
- 파이썬
- Today
- Total
대학원 일기
기초 통계학 본문
통계학
통계적모델링
통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference)하는 것이 목표이며, 기계학습(ML)과 통계학이 공통적으로 추구하는 목표이다. 그러나, 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아낸다는 것은 불가능 하므로, 근사적으로 확률분포를 추정할 수 밖에 없다.
- 데이터가 특정 확률분포를 따른다고 선험적으로(a priori) 가정한 후 그 분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적(parametric) 방법론이라고 한다
- 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수(nonparametric) 방법론이라고 한다. 기계학습의 방법론은 대부분 비모수 방법론에 속한다. 비모수 방법론은 모수가 없는 것이 아니라, 모수가 무한히 많거나 모수의 개수가 데이터에 따라 바뀌는 경우에 비모수 방법론이라고 한다.
(기본적으로 확률분포에는 모수가 적용되므로 확률분포를 모델링 할 때는 항상 모수가 존재한다.)
방법론이 나눠지는 기준은 확률분포를 가정하는 부분에서 달라진다. 여기서 확률분포의 히스토그램의 모양을 관찰하는 것으로 확률분포를 가정할 수 있다. 그 예는 다음과 같다.
- 데이터가 2개의 값(0 또는 1)만 가지는 경우 → 베르누이 분포
- 데이터가 n개의 이산적인 값을 가지는 경우 → 카테고리 분포
- 데이터가 [0, 1] 사이에서 실수값을 가지는 경우 → 베타 분포
- 데이터가 0 이상의 값을 가지는 경우 → 감마 분포, 로그 정규분포 등
- 데이터가 $\mathbb{R}$ 전체에서 값을 가지는 경우 → 정규분포, 라플라스 분포 등
기계적으로 확률분포를 가정해서는 안되며, 데이터를 생성하는 원리를 먼저 고려하는 것이 원칙이다.
데이터의 확률분포를 가정했다면 모수를 추정해볼 수 있다.
모수 추정
정규분포의 모수는 평균 $\mu$과 분산 $\sigma^{2}$으로 이를 추정하는 통계량(statistic)은 다음과 같다.
- 표본분산을 구할때 $N$이 아니라 $N-1$로 나누는 이유는 불편(unbiased) 추정량을 구하기 위해서이다.
위와 같이 표본평균과 표본분산을 정의하면 주어진 데이터를 가지고 데이터의 확률분포의 모수를 추정해볼 수 있다.
이 후, 추정된 모수를 가지고 원래 데이터의 성질, 정보들을 취합할 수 있으며 이를 통해 예측하거나 의사 결정할 때 통계량을 사용할 수 있다.
통계에서 표본평균과 표본분산의 확률분포를 표집분포(sampling distribution)라고 부르며,특히 표본평균의 표집분포는 $N$이 커질수록 정규분포를 따른다.
(표집분포와 표본분포는 다르다.)
최대가능도 추정법(Maximum likehood estimation, MLE)
- MLE는 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나
- 가능도(likelihood) 함수는 모수 $\theta$를 따르는 분포가 데이터 $x$를 관찰할 가능성을 뜻하지만 확률로 해석하면 안된다.
- 데이터 집합 $X$가 독립적으로 추출되었을 경우 로그가능도를 최적화한다.
로그 가능도
- 로그가능도를 최적화하는 모수 $\theta$는 가능도를 최적화하는 MLE가 된다.(로그를 쓰든 안쓰든 똑같이 MLE. 하지마만, 쓰면 더 좋음)
- 데이터의 숫자가 적으면 상관없지만, 만일 데이터의 숫자가 수억 단위가 된다면 컴퓨터의 정확도로는 가능도를 계산하는 것은 불가능해진다.
- 데이터가 독립일 경우, 로그를 사용하면 가능도의 곱셈을 로그가능도의 덧셈으로 바꿀 수 있기 때문에 컴퓨터로 연산이 가능해므로 최적화할 수 있다.
- 경사하강법으로 가능도를 최적화할 때 미분연산을 사용하게 되는데, 로그 가능도를 사용하면 연산량을 $O(n^{2})$에서 $O(n)$으로 줄여주면서 연산의 시간복잡도가 선형적으로 변하기 때문에 효율적이게 된다. ($O(n)$: 시간복잡도)
- 대부분의 손실함수의 경우 경사하강법을 사용하므로 음의 로그가능도(negativelog-likelihood)를 최적화하게 된다.
'Mathmatics > Probability and Statistics' 카테고리의 다른 글
확률론 (0) | 2022.02.14 |
---|