[기초통계학]_3. 확률과 통계
4. 확률과 통계
1. 확률과 의사결정
- 통계량은 모수와 일치할 확률을 나타냄으로써 해결할 수 있다. 통계량에서 필연적으로 발생할 수밖에 없는 오차를 인정하고, 통계량이 맞을 확률을 같이 제시하여 그 통계량이 의미가 있도록 하기 위함
- 통계적 결과가 얼마나 의미가 있는지 알 수 있기 때문에 결과에 따른 최적의 의사결정이 가능하다.
1. 확률론
1. 수학적 확률
- 아무리 정교하게 분석된 통계 자료일 지라도 100% 맞을 수 없기 때문에, 그 결과를 확률과 함께 표현한다.
- 확률은 다음과 같은 조건을 만족한다.
- 확률은 0~1의 값을 가진다.
- 모든 사건에 대한 확률의 합은 1이다.
2. 통계적 확률
-
통계적 확률은 기본적인 확률의 개념과 같다.
-
반복적인 실행은 n번 수행해서 사건 A가 일어난 횟수를 r이라 했을 때, n을 충분히 크게 한다면 상대도수로 나타나는 r/n은 일정한 확률값 p로 근사하게 된다. 이 p를 사건 A가 발생할 통계적 확률 또는 경험적 확률이라고 한다. \(\dfrac{r}{n}\approx P(A) 이고, \lim_{n\rightarrow\infty}\dfrac{r}{n}=P(A)\)
3. 확률의 덧셈법칙
- 반드시 앞면을 얻거나 뒷면을 얻을 확률은 1/2 + 1/2 = 1이다. 이것은 덧셈 법칙의 한 예이다. 여러 결과들이 서로 배반사건일 때 이렇게 두 사건들이 일어날 확률은 이들 두 사건의 각각의 확률의 합이다(그러므로, 주사위를 4번 던졌을 때 1, 2, 3 또는 4가 나올 수 있는 확률은 4/6이다).
4. 조건부 확률과 확률의 곱셈법칙
- 확률의 덧셈법칙에서는 사건 A와 사건 B가 발생하는 과정에서 순서라는것이 존재하지 않는다. 만약 A가 발생한 상황하에 B가 발생한 경우는 계산방법이 달라진다.
- 상황 A가 발생한 상황 하에서 사건 B가 발생할 확률이므로 다음과 같이 구할 수 있다.
- 이를 정리하면 다음과 같이 표현 할 수 있다.
- 이와 같은 확률의 계산 법칙을 확률의 곱셈법칙 이라 한다.
2. 확률변수와 확률함수
- 확률변수 : 실험 결과(사건)에 실수값을 대응시키고 그 값에 확률을 부여한 것이다. 실험을 다 마친 후에 어떤 결과가 몇 번씩 발생했는지 총체적으로 살펴볼 수 있다. 이 확률변수는 두 종류로 나뉜다.
- 이산 확률변수 : 셀 수 있는 특정한 값들로 구성되거나 일정한 범위로 나타나는 형태
- 연속 확률변수 : 연속형이거나 무한한 경우 처럼 셀 수 없는 형태
- 이산 확률변수는 독립적으로 발생하는 사건에 대한 확률변수다. 이상확률변수는 사건에 대한 실수값에 확률을 부여한 것이므로, 각 사건의 확률을 적시하는 확률변수를 기준으로 합산해 계산해야 한다.
- 연속 확률변수는 발생하는 각 사건을 단일한 독립사건으로 구분하기에는 경우의 수가 너무 많아 범위로 표현되는 확률변수를 말한다.
- 확률함수 : 확률 P를 가진 어떤 사건이 n회 시행 중에서 x회 나타날 때, 확률변수 x와 이에 대응하는 P(x)의 관계를 나타낸 함수를 말한다. 함수로 표현되는 확률 분포는 간단한 수식만으로도 모든 확률 분포를 설명할 수 있으므로 설명의 효율성이 매우 좋다.
2. 확률변수의 평균과 분산
1. 확률변수의 평균
- 통계학에서 확률변수의 평균은 기대값과 같은 의미로 사용된다. 기대값이란 어떤 사건에 대해 그 사건이 벌어질 확률을 곱해서 전체 사건에 대해 합한 값을 말한다. 기대값 식은 아래와 같다.
- 기대값이란 사건에서 발생하는 해당 값과 그 사건이 발생할 확률을 곱해서 모두 더한 값을 말한다.
2. 확률변수의 분산과 표준편차
- 확률변수의 분산은 기대값의 특성을 나타내는 값으로, 확률변수들의 평균인 기대값으로부터 벗어나는 정도를 나타낸다.
- 평균으로부터 산포된 정도를 분산이라 한다. 즉 확률변수의 분산은 기대값과 어느 정도 차이가 있는지를 나타낸다.
- 확률에서 분산을 구하려면 확률변수와 기대값의 차이를 구한 후 제곱하고, 해당 사건의 확률을 곱한 후 모두 더한다.
- 표준편차는 분산을 구해 제곱근을 취한 값을 말한다. 따라서 분산과 마찬가지로 평균과의 차이를 나타낸다. 표준편차를 확인하는 이유는 분산이 측정치와 평균 간 차의 제곱을 모두 더한 값이라 평균과 상당한 차이가 나기 때문이다.
Leave a comment