[기초통계학]_4. 확률 분포
5. 확률분포
1. 확률분포
-
분포는 어떤 기준점을 중심으로 나머지 요소들의 위치를 찾아서 그 위치를 표시하는 것을 말한다. 이런 작업을 하는 이유는 어떤 주어진 대상에 대해 이해해야 하거나 설명이 필요할 때 그 대상이 가진 속성을 기준으로 이해하거나 설명해야 하기 때문이다.
-
모수와 통계량을 이용하여 주어진 기준이 적합한지 여부를 판단할 수 있고, 더 나아가 두 집단 혹은 여러 집단을 서로 비교할 수 있다.
-
확률분포 : 미래에 발생할 사건에 대해 확률을 나열한 것을 말한다.
-
확률포를 그래프로 나타내면 확률분포도, 표로 나타내면 확률분포표라고 한다.
-
균등분포 : 과거의 경험이 미래를 예측하는데 어떤 영향도 미치지 않으며, 나타날 가능성이 모두 동일한 분포를 말한다.
- 이산 균등분포 : 정의된 구간에서 확률분포 함수의 확률이 모두 동일한 분포
- 연속 균등 분포 : 특정 범위 내에서 모든 확률함수가 동일한 분포
- 이산 확률분포에서는 발생하는 사건이 모두 독립적으로 구성되지만, 연속 확률분포에서는 발생하는 사건이 구분되지 않는다.
-
정규분포 : 균등분포와 달리 축척된 데이터를 기준으로 미래를 예측할 수 있는 분포
- 평균과 분산만으로 그 특성을 모두 설명할 수 있어 아주 편리하다.
- 좌우 대칭인 종모양을 하고 있다.
- 정규분포의 확률함수는
- 서로 다른 분포를 비교할 때는 여러 개의 분포를 어떤 하나의 기준으로 재배치하여 그 기준 아래에 각 분포를 비교할 수 있다. 이를 표준화 하라 한다.
- 표준정규분포 : 표준화 과정을 거쳐 새로운 기준이 되는 ‘평균=0, 표준편차=1’에 따라 정규분포를 재 구성한 것을 말한다.
- 표준 정규분포의 확률함수는
-
2. 이항분포
-
이항분포는 : 2개의 서로 다른 사건이 배타적으로 발생하는 경우를 나타내는 분포
-
배타적인 사건이란 하나의 사건이 발생하면 다른 하나의 사건은 발생하지 않는 경우를 말한다,
-
베르누이 시행 : 서로 반대되는 사건이 일어나는 실험을 반복적으로 실행하는 것을 말한다.
- 통계학에서는 이러한 시행의 결과를 ‘성공/실패’ 혹은 ‘존재/없음’으로 구분
-
베르누이 분포 : 베르누이 시행을 확률분포로 나타낸 것을 말한다, 성공확률을 p(x = 1인 경우)라 할 때, 실패 확률은 1-p(x = 0인 경우)라고 가정한다.
-
이항분포는 연속적인 베르누이 시행을 거쳐 나타나는 확률분포다.
- 서로 독립된 베르누이 시행을 n회 반복할 때 성공한 횟수를 X라 하면, 성공한 X의 확률분포가 이항분포이다.
- 이항 분포의 확률함수는 다음과 같이 구할 수 있다.
- 이항분포에서도 정규분포를 이용할 수 있다. 정규근사와 이항분포의 연속성을 통해 정규분포를 이용한다.
- 이항분포에서 정규근사를 이용하는 이유 : 이항분포의 확률을 알고 있더라도 충분히 많은 실험을 해서 그 확률이 맞다는 것을 확인하는 과정을 거쳐 정규근사 한다는 것을 확인하기 위함이다. 충분히 사건을 발생시키더라도 이항분포와 정규분포의 차이는 생길 수 밖에 없다,
- 이항분포의 p값을 차이가 없을 때 정규근사는 n값이 충분히 커야 하지만, p와 (1-p)의 차이가 큰 경우라면 바로 정규근사를 적용해도 문제가 없다.
3. 포아송분포
- 포아송분포를 이용하면 빈도가 낮게 나타나더라도 혹은 거의 발생하지 않아도 이에 대한 확률을 계산할 수 있다.
- 포아송 분포 : 특정 사건이 발생할 가능성이 매우 드문 경우의 확률분포를 나타낸다. 포아송분포는 시간, 단위지역, 단위구간 등에 발생하는 매우 낮은 확률이다.
- 포아송분포에서는 단위 사간당 평균 사건 발생 건수를 람도로 타나낸다.
- 포아송 분포의 확률함수는 아래와 같다.
- 실제 계산과정이 복잡해서 포아송분포표를 통해 누적확률을 찾거나 컴퓨터로 계산한다.
- 포아송분포와 정규분포와의 관계 람다가 커질수록 포아송분포의 곡선이 점점 정규분포 곡선을 닮아간다.
- 람다의 값이 커진다는 것은 사건이 발생할 확률이 커지는 것을 의미한다. 평균값 람다가 커진다는 것은 각 단위에 발생하는 사건이 아주 적거나 아주 많이 나타나는 경우가 같이 존재한다. 전체적인 의미에서 정규분포를 구성하게 된다. 따라서 각 단위별 비교가 필요한 경우, 평균값 람다를 비교하기 곤란한 경우 정규분포를 이용해야 한다.
Leave a comment