devFancy BE Developer

03. 데이터 기술하기: 수치적 척도

2022-04-17
devfancy

이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.

  • Key Point : 산술평균,중위수,최빈값 / 가중평균, 기하평균 / 표본분산, 표본표준편차 / 변동계수

Contents

  • 산술평균, 중위수, 최반값을 계산하고 해석한다.

  • 가중평균을 계산한다.

  • 기하평균을 계산하고 해석한다.

  • 범위, 분산, 표준편차, 변동계수를 계산하고 해석한다.

  • 그룹 데이터에 대한 산술평균과 표준편차를 계산한다.

위치척도

  • 위치척도 : 데이터의 집합의 중심 경향을 기술하는 데 사용

  • 산술평균

    • 모평균 $\mu = \frac{\Sigma x}{N}$

      • $\mu$ : 모평균을 나타낸다.

      • $x$ : 특정한 값을 타나낸다.

      • N : 모집단 내의 값의 개수이다.

    • 표본평균 $\bar{x} = \frac{\Sigma x}{n}$

      • $\bar{x}$ : 표본평균을 나타낸다.

      • n : 표본의 개수이다.

    • 특성

      • 등간척도 또는 비율척도가 요구된다.

      • 평균은 유일한 값

      • 평균으로부터 각 값들까지의 편차의 합은 0

      • 매우 크거나 작은값에 영향을 받는다.

  • 중위수(중앙값) (median)

    • 최소에서 최대의 순서로 정렬된 값들의 중간점

    • 중위수 = $\frac{(n+1)}{2}$

    • 짝수일 경우 두 값의 산술 평균이 중위수이다.

    • 적어도 순서척도가 요구된다.

  • 최빈값

    • 가장 빈번하게 출현하는 관측치 값

    • 특성

      • 명목척도 데이터에서 사용될 수 있다.

      • (=중위수)극도로 작거나 큰 값에 영향을 받지 않는다. $\nleftrightarrow$ 평균은 영향을 받는다.

      • 평균, 중앙값과 달리 값이 여러개 일 수 있다 $\nleftrightarrow$ 평균, 중앙값은 값이 하나

      • 최빈값은 항상 분포의 봉우리, 중위수는 최빈값과 평균의 사이

  • 가중평균(weighted mean)

    • 같은 값을 가진 여러 개의 관측치가 있을 때 산술평균을 계산하는 방법

    • 가중평균은 각 관측치 x와 이에 상응하는 가중치 w를 곱하여 구한다

    • 가중평균 $\frac{\Sigma 판매량 * 개당이익}{\Sigma 판매량} = \frac{\sum_{i=1}^N W_iX_i}{\sum_{i=1}^N W_i}$

    • W: 가중치(갯수) , X: 관측치(값)

  • 기하평균(geometric mean)

    • 시간에 따른 백분율, 비율, 지수, 성장률의 변화의 평균

    • 기하평균 $GM = \sqrt[n]{ {(x_1)}{(x_2)}…{(x_n)} }$

      • n개 양수 값의 곱에 대한 n 제곱근이다.
    • 시간에 따른 증가율 $GM = \sqrt[n]{\frac{기말의 값}{기초의 값}} - 1$

      • 한 기간에서 다른기간까지 시간에 따른 증가율을 알아내는 데 사용한다.

산포

  • 산포 : 중심으로부터 데이터가 흩어진 정도.

  • 범위(Range)

    • 범위 = 최대값 - 최소값

    • 극단적인 데이터만을 사용하는 단점 → 데이터 분포 무시, 극단값에 민감

  • 분산(Variance)

    • 데이터가 평균으로 얼마나 퍼져있는가

    • 평균으로부터 제곱편차에 대한 산술평균

  • 표준편차(Standard deviation)

    • 분산의 루트(square root) 값

    • 데이터의 원래 단위를 사용하여 분산에 비해 활용하기 쉬움

  • 분산과 표준편차 특징

    • 항상 0보다 같거나 크고, 모든 데이터의 값이 같을 경우에만 0이 됨

    • 동일한 값을 데이터 값에 더하거나 빼주어도 분산이나 표준편차는 변하지 않는다.

  • 모분산

    모분산 $\sigma^2 = \frac{\Sigma(x - \mu)^2}{N}$

    • $\mu$ : 모집단의 산술평균

    • $x$ : 모집단 내의 특정한 관측치의 값( = 값)

    • $N$ : 모집단 내의 관측치의 수 (= 개수)

  • 표본분산

    표본 분산 $s^2 =$ $\Sigma(x -\bar{x})^2 \over n-1$

  • 표본 표준분산

    표본 표준분산 $s = \sqrt{\Sigma(x -\bar{x})^2 \over n-1}$

    • $s$ : 표본 표준편차이다

    • $x$ : 표본 내의 각 관측치의 값이다

    • $\bar{x}$ : 표본 평균이다. (= $\mu$)

    • n : 표본 내의 관측치의 수이다.

  • 변동계수 (CV, Coefficient of Variation)

    • 표준편차를 평균의 퍼센트로 표시 (평균 대비 표준편차의 비율)

    • 데이터의 상대적 산포

    • 변동계수 사용하는 경우

      • 다른 단위를 가진 변수들의 비교 (월급 vs. 시험성적)

      • 단위는 같으나 평균에 큰 차이가 나는 변수들의 비교 (CEO의 수입 vs. 일용노동자의 수입)

      • CV = (100 x $\frac{\sigma}{\mu}$ ) % or CV = (100 x $\frac{s}{\bar{X}}$ ) %

그룹화 자료의 평균과 표준편차

  • 그룹화 자료의 평균, 표준편차: 모든 데이터를 각 계급의 계급값으로 간주

  • 평균

    • 평균에 대한 식

    $\bar{X} = \frac{\sum_{i=1}^K f_iM_i}{n}$

    • 표준편차

    $s = \sqrt{\frac{\sum_{i=1}^K f_i(M_i - \bar{X})^2}{n-1}} =\ \sqrt{\frac{\sum_{i=1}^K f_iM^2\ -\ n\bar{X}^2}{n-1}}$

    • K = 계급의 수

    • $f_i$ = 각 계급의 빈도수

    • $M_i$ = 계급값 (계급값은 각 계급의 중간값을 사용한다)

    • n = 총 빈도수

Reference


Comments

Index