[기초통계학]_1. 시작하며, 모집단과 표본
1. 통계학을 공부하는 이유
- 현대사회는 4차 산업혁명의 시대를 살고 있다. AI와 빅데이터가 강조되는 시대라고 할 수 있다.
- 통계학은 인문/사회과학을 비롯한 인간 생활의 전 영역에 깊이 들어와 있다.
- 통계는 실생활에서 광범위하게 활용되고 있다.
- 일상생활에서 우리가 접하는 대부분의 정보는 통계를 거쳐 가공되어 전달된다. 통계는 사회에서 발생할 수 있는 다양한 상황에서 신뢰할 수 있는 자료를 가공해내고, 이를 활용한다.
- 통계는 의사결정에 대한 과학적 근거 자료를 제시한다.
- 통계는 현상을 분석하여 실증 자료를 제시한다. 눈으로 확연히 보이지는 않지만 경험으로 알 수 있는 현상들에 대해 과학적 근거를 제시할 수 있다면 매우 유용한 무기가 될 수 있다.
- 통계의 역할과 중요성은 시간이 갈수록 커져가고 있다. 정보통신기술의 발달로 통계를 적용할 수 있는 범위도 점점 더 넓어지고 있다.
1. 통계학의 정의와 목적
- 통계학은 수량적인 비교를 기초로 많은 사실을 관찰하고 처리하는 방법을 연구하는 학문이다. 일반적으로 수집되는 데이터는 조사자, 시기, 방법, 목적 등에 따라 다르게 수집될 수 있기에 불균형한 데이터이다. 이런 데이터에서 의미를 찾아내고, 실생활에 적용 가능한 유용성을 찾아내 이를 수치로 표현한다.
- 정확한 결과를 위해서는 전체집단(모집단)을 조사해야하지만 그 양이 방대하기 때문에 표본을 통해 전체를 추론하는 것으로 이어진다. 추론이란 정확하지 않더라도 실제의 정확한 값이라는 가정을 하는 것을 말한다. 표본을 추론한 결과가 모수와 어느정도 일치할지에 대한 확률이 필연적으로 따른다.
- 기술통계 : 선택한 표본으로 모집단을 설명할 수 있다는 대표성에 대해 설명하는 것
- 추론통계 : 표본을 활용하여 모집단의 특성을 나타내는 것
2. 통계분석과 그 한계
- 오늘날 통계는 다양한 분야에서 실증 자료와 현상을 분석하는 데 필수 도구로 활용되고 있다. 그러나 통계에는 그 자체에 치명적인 결점이 내포되어있다.
- 통상적으로 통계분석은 수집 -> 정제 -> 추정 -> 검정의 과정을 따른다. 이를 통해 얻어진 결과가 정확한 결론이나 결과를 짚어내지는 못한다. 전체 모집단을 대상으로 분석을 진행한 것이 아니라 표본에서 결과를 얻기 때문이다.
- 통계는 확률이 없으면 의미가 없다. 그리고 항상 틀릴 가능성을 내포한다. 그리고 결론은 항상 추론이다. 통계는 위와 같은 한계를 가진다고 할 수 있다.
2. 모집단과 표본
1. 모집단과 표본 추출
- 통계 공부를 시작하면 가장 먼저 등장하는 개념은 모집단과 표본이다.
- 모집단은 통게분석 방법을 적용할 관심 대상의 전체 집합을 말한다.
- 표본은 모집단을 대표할 수 있는 일부를 추출한 직접적인 조사 대상을 말한다.
- 모수 : 모집단을 분석하여 얻는 결과 수치를 말한다.
- 통계량 : 표본을 분석하여 얻는 결과 수치를 말한다.
- 표본의 추출 방법은 크게 확률적 추출방법과 비확률적 표본추출 방법이 있다.
- 확률적 추출방법 : 모집단으로부터 표본을 추출할 때 표본으로 선택될 확률이 모두 동일한 방법을 말한다.
- 단순 무작위 표본 추출 : 모집단에서 일정한 규칙에 따라 표본을 기계적으로 추출하는 방법이다.
- 체계적 표본 추출 : 모집단을 대상으로 각각에 번호를 부여하고 일정한 순서대로 n개의 간격을 정해 표본을 추출하는 방법이다.
- 비례 층화 표본 추출 : 모집단을 여러 개의 이질적 집단으로 구분한 후, 각 집단의 구성 개수에 비례하도록 추출하는 방법이다.
- 다단계 층화 표본 추출 : 비례 층화 표본 추출에서 상하위 표본 단위를 미리 설정하고 그에 맞추어 다시 추출하는 방법이다.
- 군집 표본 추출 : 모집단 구성이 여러 개의 군집으로 이루어져 있고, 내부는 이질적이나 외부는 동질적인 모집단을 대상으로 몇 개의 군집을 표본으로 선택해서 조사하는 방법이다.
- 비확률적 추출 방법 : 모집단에서 표본을 추출할 때 모집단을 구성하는 하나하나가 표본으로 선정될 확률이 서로 다른 표본추출 방법이다.
- 편의표본 추출 : 조사자의 편의에 따라 시간이나 장소에 구애받지 않고 임의로 표본을 추출하는 방법이다. -> 오류가 가장 많이 발생하는 방법
- 판단표본 추출 : 조사자가 적합하다고 판단한 구성원들을 표본으로 선택하는 방법이다. -> 표본으로 선택할지 여부를 조사자가 판단한다는 점이 편의 표본추출과 다르다.
- 할당표본 추출 : 모집단의 속성을 대표할 만한 구분을 정하고 각각의 표본 개수를 정한 다음 임의로 표본을 추출하는 방법이다.
- 자발적 표본 추출 : 조사자의 의지와는 별개로 응답자가 원하여 조사에 응하는 경우를 표본으로 선택하는 방법이다. 조사 주제에 대해 응답자으 ㅣ관여도가 높은 사람들이 주로 조사에 응하게 되기 때문에 결과가 왜곡될 가능성이 크다.
- 확률적 추출방법 : 모집단으로부터 표본을 추출할 때 표본으로 선택될 확률이 모두 동일한 방법을 말한다.
2. 표본의 분포
-
통계학에서는 표본을 조사해 모집단에 대해 추론한다. 표본의 특성을 파악하기 위해서 표본의 분포를 잘 살펴보아야 한다.
-
통계학에서 가장 중요하면서도 일반적인 분포가 정규분포이다. 정규분포는 가우스분포라고도 하며 확률분포를 알 수 없는 어떤 경우라도 n을 독립적으로 반복해 늘려나갈 때 n의 증가에 따라 정규분포에 근접한다는 중심극한정리에 근거한다.
-
정규분포는 평균을 중심으로 좌우로 대칭인 종모양의 형태를 띄고 있다.
-
정규분포들을 비교하기 위해서는 표준화작업이 필요하다. 표준화를 진행하면 다양한 정규분포의 기준점이 평균 = 0, 표준편차 = 1로 동일하게 맞춰져 조사자가 서로 다른 자료를 쉽게 비교가 가능하다.
-
z분포와 t분포는 평균과 관련된 분포이다.
-
z분포(표준정규분포) : 정규분포를 표준화하여 기준점을 동일하게 평균 = 0, 표준편차 = 1로 맞춘 것을 말한다. 표준정규분포의 확률을 계산하면 다양한 정규분포의 확률을 판단할 수 있다. 표준정규분포는 표본의 개수가 충분한 경우 혹은 모분산을 알고 있는 경우에 사용한다.
-
t분포 : 표본이 충분하지 못한 경우 사용한다. 즉 표본의 개수가 30개를 넘지 못하는 경우에 사용한다. t분포는 표본이 충분하지 않아 정규분포를 이루지 못할 가능성이 크기 때문에 모집단이 정규분포를 이룬다는 가정이 필요하다. t분포는 평균 =0, 분산>1인 정규분포를 따른다.
-
-
카이제곱분포와 F분포는 분산의 추론과 관련된 분포이다.
- 카이제곱분포 : z분포의 제곱에 대한 분포이다. 그렇기 때문에 항상 0보다 큰값을 가진다. 자유도가 커짐에 따라 정규분포에 가까워진다. 카이제곱분포는 주로 모분산의 추정이나 계수 값을 해석하는데 사용된다.
- F분포 : F분포는 분산 2개에 관한 추론이다. F분포는 주로 분산의 동일성 여부를 판단하는 수단으로 사용된다.
-
표본비율의 확률분포는 표본으로 추정한 비율을 말한다.
- 표본비율의 확률분포 : 표본비율은 모집단의 특성 중 모비율을 추정하기 위해 사용된다. 어느 한 사건이 발생하는 베르누이 시행의 이항분포를 활용해 표본비율의 분포를 구할 수 있다.
3. 표본분포와 중심극한정리
- 표본분포는 추출된 표본에서 분포를 확인하는 것이 아니라 표본에서 도출되는 통계량을 확인하는 확률분포이다. 한 번 측정으로 확률을 얻을 수 없기 때문에 여러 번 측정 해야한다.
- 표본의 목적은 모수를 추정하는 것이다. 이 과정에서 모수평균과의 오차가 발생한다. 이를 표본평균 오차라고 한다.
- 표본 개수가 많을수록 통계량이 모수와 가까워 지지만, 무작정 늘리는건 바람직하지 않다. 하지만 표본의 적절한 개수를 늘리면 모수에 근접해진다. 위의 표본평균 오차가 줄어드는 양상을 보인다.
- 이를 통해 표본의 개수가 충분하다면 모수를 모르는 상황에서도 표본 통계량으로 정규분포를 구성해 모수를 추정할 수 있는 중심극한정리를 이해할 수 있다. 즉 중심극한정리는 모집단이 정규분포를 이루지 못해도 표본의 개수가 충분하다면 정규분포에 가까워 진다는 것을 말한다.
- 중심극한정리는 추론통계학의 근본을 이루는 아주 중요한 개념이다. 모집단과 표본평균들의 분포 관계를 증명하고 z값을 활용한 추론이 가능하도록 수학적 근거를 제시한다.
Leave a comment