2. 데이터와 통계량

1. 데이터의 수집

  • 데이터는 통계분석을 위한 재료로, 반드시 정량적으로 수집되어야 한다. 또한 조사 목적을 이루기 위해서 데이터를 기준에 따라 선별해야 한다.

1. 변수와 데이터

  • 변수 는 어떠한 대응 관계로 변화하는 수를 말한다. 함수관계로 대응하며 데이터를 근거로 변수의 특성을 파악할 수 있다.
  • 데이터는 조사 목적에 맞는 변수를 기반으로, 표본으로부터 수집한 자료를 말한다.

2. 척도

  • 척도는 데이터 성격에 따라 크게 범주형 척도와 연속형 척도로 구분된다.
    • 범주형 척도 : 데이터들을 구분지어 나눌 수 있는 척도로 명목척도와, 서열척도로 구분된다.
      • 명목척도 : 수 또는 순서의 개념과 상관없이 이름만 붙여지는 척도를 말한다.
      • 서열척도 : 순서척도라고도 하며 명목척도처럼 숫자나 연산과 관련은 없지만 순서를 구분할 수 있다는 특징이 있다.
    • 연속형 척도 : 연결된 속성의 데이터를 조사 목적에 맞게 구분한 척도로, 등간척도와 비율척도로 구분할 수 있다.
      • 등간척도 : 측정된 자료들 간에 더하기와 빼기가 가능한 척도를 말한다. 등건 척도에서는 절대 0이라는 개념이 존재하지 않는다.
      • 비율척도 : 등간척도의 성질과 함께 무의 개념인 0의 값을 가지는 척도를 말한다. 사칙연산이 가능하며, 거의 모든 통계분석에서 사용이 가능하다.

2. 데이터의 표현 방법

  • 조사 목적에 맞게 적절한 척도를 설정하여 데이터를 수집하고 이를 표현할 수 있어야 한다. 데이터를 표현하는 것은 상대방이 이해할 수 있도록 수집된 자료의 내용이나 특성 등을 설명하는 것을 말한다. 이처럼 표본으로 부터 얻은 기초 정보를 관심 있는 상대방에게 설명하는 통계 방법은 기술통계라고 한다.

1. 도수분포표

  • 도수분포표는 구간을 설정해서 수집된 각각의 데이터에 대한 개수를 정리한 표를 말한다. 즉 표본 안에서 해당 데이터가 몇 번씩 확인되는지 빈도를 확인하는 것을 말한다.

2. 히스토그램

  • 도수분포표는 직관적으로 인식되는 형태가 아니기 때문에 일일이 숫자를 비교해야 한다는 단점이 존재한다. 이런 표를 그래프로 나타내면 숫자를 살펴보지 않아도 크기나 형태 등으로 비교할 수 있다. 이런 과정을 히스토그램 그래프를 통해 수행할 수 있다.

3. 막대그래프

  • 히스토그램은 하나의 주제나 조건에 대해 구간을 설정해 빈도를 측정하지만 만대그래프는 여러 종류의 주제나 조건에 대해 빈도를 측정한다.

4. 상자수염그림

  • 상자수염그림은 일반적으로 2개 이상인 집단의 자료를 서로 비교하는데 사용된다. 그림 자체에서 최대값, 최소값, 평균, 중앙값 등 많은 정보를 보여줄 수 있기 때문에 데이터를 표현하는데 있어 상당히 유리하다.

3. 기초 통계량

  • 통계량은 표본을 분석해 얻은 결과로 기술통계량이라한다. 통계량은 표본이 갖는 특성을 제시하므로 이를 바탕으로 모수를 추정하더라도 문제가 없음을 설명하는 기초 자료가 된다.
  • 표본을 설명할 때는 기본적으로 표본의 중심을 이루는 값이 어느 정도 되는지 나타내게 된다. 중심을 이루는 값은 기준을 어떻게 설정하는지에 따라 달라지는데 표본의 중심을 설명하므로 대표값이라고도 하며 중심경향화 값 혹은 중심경향 측정치라 부른다. 평균, 중간값, 최빈수, 사분위수로 확인할 수 있다.
  • 표본의 중심을 이루는 특성을 파악했다면 표본이 구성하는 분포 즉 표본이 퍼진 정도를 알아야한다. 이를 산포도라고 한다. 산포도는 범위, 분산, 표준편차, 변동계수 등으로 구분된다.
  • 표본의 모든 특성을 이해하려면 표본이 최대값이나 최소값으로 몰려있는 정도를 파악해야 한다. 이를 비대칭도라고 한다. 왜도로 비대칭도를 파악한다.
  • 마지막으로 분포의 뾰족한 정도를 나타내는 첨도를 확인해야 한다.

1. 중심경향도

  • 중심경향도란 데이터를 종합하여 그 중심을 이루는 값이 어느 정도가 될지를 구하는 것이다.
  • 중심경향도에는 평균, 중간값, 최빈수 등이 존재한다.
    • 평균 : 통계에서 가장 많이 활용되는 중심경향값이다. 평균에는 산술평균, 기하평균, 조화평균이 있다.
      • 산술평균 : 일반적으로 우리가 사용하는 평균의 개념을 말한다. 모든 측정치를 더한 값을 측정치의 개수로 나누어 계산한다.
        • 산술평균은 여러 특징을 가진다.
            1. 산술평균으로부터 관찰값 편차의 합은 0이다.
            2. 자료의 분포가 좌우대칭이면 산술평균과 중위수는 같다.
            3. 대표값 중에서 가장 많이 사용된다.
      • 기하평균 : 평균변화율이나 평균성장률, 경제성장률 등의 비율을 구할 때 사용하는 수치다. 이를 이용하는데는 시계열 자료 변동을 대표하는 값으로 가장 적당하다, 기하평균은 계산이 복잡하기 떄문에 로그함수를 취해서 계산한다. 측정치에 0이나 음수가 존재하면 사용할 수 없다.
      • 조화평균 : 양수인 n개의 측정치를 역수로 하여 산술평균을 구하고, 이를 다시 역수로 나타낸 평균을 말한다. 조화평균은 가속 현상에서 평균 속도를 구하는것과 같이 시간 비율의 평균을 나타내거나 표본 측정치의 극단 값을 줄여 균형된 자료를 만들때 사용한다.
      • 절사평균 : 표본 측정치들 중 편차가 큰 극단치가 존재하는 경우 산술평균을 활용하기 어렵기 때문에 상위와 하위의 일정부분을 제거하고 계산한 평균을 말한다.
    • 중간값 : 가운데 위치한 값을 말한다. 평균에 비해 극단치의 영향을 적게 받기 때문에 경우에 따라서는 평균보다 더 좋은 대표값이 될 수 있다.
    • 최빈수 : 표본에서 가장 많이 나타내는 관측치를 말한다.

2. 산포도

  • 측정된 데이터가 어떤게 분포하는지 파악해야 데이터를 제대로 이해할 수 있다. 표본이 가지는 분포의 정도를 확인할 필요가 있는데 이를 산포도라고 한다.
  • 모분산 : 모평균과 모집단의 개별 측정치들 간의 차를 구해서 제곱하여 모두 더한 후, 그 값을 다시 모집단을 구성하는 개수로 나누어 계산한 값이다.
  • 표준분산 : 분산 공식을 모집단을 기준으로 하지 않고 표본을 선정해서 표본의 개수(n-1)로 계산한 것을 말한다. 여기서 변수들 가운데 하나는 정해진 평균값에 맞추기 위해 어떠한 고정된 값으로 정해져 자유를 상실하므로 자유도는 표본개수-1이 된다.
  • 표준편차 : 분산과 편차는 평균으로부터 측정치들이 어느 정도 흩어져 있는지를 나타낸다. 편차는 평균을 기준으로 음과 양으로 흩어져 있어 총합을 계산하면 0이 된다. 제곱합에서 분산을 구했기 때문에 이를 다시 제곱 이전으로 되돌려 표준편차를 계산한다. 이를 위해 분산값에 루트를 씌워 제곱근을 만들면 표준편차가 된다.
  • 변동계수 : 집단 1개의 산포만 확인하려고 한다면 분산과 표준편차만으로도 확인 할 수 있다. 변동계수는 표준편차를 평균으로 나눈 값이다. 관찰치의 산포 정도를 상대적으로 비교할 때 이용하며 단위가 서로 다른 두 집단 자료의 산포를 비교할 때 이용할수도 있다.
  • 사분위수 : 오름차순에 따라 측정값을 작은 것부터 크기순으로 배열하고, 누적 백분율을 4등분한 각 점의 수치를 말한다.

3. 비대칭도

  • 표본이 정규분포를 구성하면서 평균을 중심으로 좌우가 대칭인 경우도 있지만 분포가 한쪽으로 쏠려 좌우가 대칭을 이루지 않는 경우도 있다. 왜도를 통해 분포곡선이 좌측이나 우측 중 어느 쪽으로 쏠려 있는지를 설명한다.
  • 왜도 : 피어슨의 비대칭도라고도 하며, 자료가 어느 정도로 비대칭적으로 분포되어 있는지를 나타내는 통계지표다. 봉우리가 하나인 단봉분포에서 긴 꼬리가 우측에 있으면 양의 왜도, 좌측에 있으면 음의 왜도라 한다. 즉, 비대칭도의 부호는 관측값 분포의 꼬리 방향을 나타낸다.
    • 양(+)의 왜도(정적 왜도) : 오른쪽으로 꼬리가 길게 늘어진 형태이며 왜도는 0보다 크고 평균이 가장 큰 값으로 관찰되고, 중위수가 평균보다 작고 최빈수가 가장 작게 나타난다.
    • 음(-)의 왜도(부의 왜도) : 왼쪽으로 꼬리가 길게 늘어진 형태이며 왜도는 0보다 작고 최빈수가 가장 크고 중위수가 최빈수보다 작고 평균은 중위수보다 작다.
  • 첨도 : 표본분포가 좌우대칭일 때 단봉분포의 경우 어느 정도 뾰족하게 나타나는지에 대한 지표가 있으면 표본분포를 이해하는 데 도움이 된다. 첨도는 분포곡선의 봉우리가 얼마나 뾰족한지를 나타내는 수치이다.

Categories:

Updated:

Leave a comment