이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.
- Key Point : 산술평균,중위수,최빈값 / 가중평균, 기하평균 / 표본분산, 표본표준편차 / 변동계수
Contents
-
산술평균, 중위수, 최반값을 계산하고 해석한다.
-
가중평균을 계산한다.
-
기하평균을 계산하고 해석한다.
-
범위, 분산, 표준편차, 변동계수를 계산하고 해석한다.
-
그룹 데이터에 대한 산술평균과 표준편차를 계산한다.
위치척도
-
위치척도
: 데이터의 집합의 중심 경향을 기술하는 데 사용 -
산술평균
-
모평균 $\mu = \frac{\Sigma x}{N}$
-
$\mu$ : 모평균을 나타낸다.
-
$x$ : 특정한 값을 타나낸다.
-
N : 모집단 내의 값의 개수이다.
-
-
표본평균 $\bar{x} = \frac{\Sigma x}{n}$
-
$\bar{x}$ : 표본평균을 나타낸다.
-
n : 표본의 개수이다.
-
-
특성
-
등간척도 또는 비율척도가 요구된다.
-
평균은 유일한 값
-
평균으로부터 각 값들까지의 편차의 합은 0
-
매우 크거나 작은값에 영향을 받는다.
-
-
-
중위수(중앙값) (median)
-
최소에서 최대의 순서로 정렬된 값들의 중간점
-
중위수 = $\frac{(n+1)}{2}$
-
짝수일 경우 두 값의 산술 평균이 중위수이다.
-
적어도 순서척도가 요구된다.
-
-
최빈값
-
가장 빈번하게 출현하는 관측치 값
-
특성
-
명목척도 데이터에서 사용될 수 있다.
-
(=중위수)극도로 작거나 큰 값에 영향을 받지 않는다. $\nleftrightarrow$ 평균은 영향을 받는다.
-
평균, 중앙값과 달리 값이 여러개 일 수 있다 $\nleftrightarrow$ 평균, 중앙값은 값이 하나
-
최빈값은 항상 분포의 봉우리, 중위수는 최빈값과 평균의 사이
-
-
-
가중평균(weighted mean)
-
같은 값을 가진 여러 개의 관측치가 있을 때 산술평균을 계산하는 방법
-
가중평균은 각 관측치 x와 이에 상응하는 가중치 w를 곱하여 구한다
-
가중평균 $\frac{\Sigma 판매량 * 개당이익}{\Sigma 판매량} = \frac{\sum_{i=1}^N W_iX_i}{\sum_{i=1}^N W_i}$
-
W: 가중치(갯수) , X: 관측치(값)
-
-
기하평균(geometric mean)
-
시간에 따른 백분율, 비율, 지수, 성장률의 변화의 평균
-
기하평균 $GM = \sqrt[n]{ {(x_1)}{(x_2)}…{(x_n)} }$
- n개 양수 값의 곱에 대한 n 제곱근이다.
-
시간에 따른 증가율 $GM = \sqrt[n]{\frac{기말의 값}{기초의 값}} - 1$
- 한 기간에서 다른기간까지 시간에 따른 증가율을 알아내는 데 사용한다.
-
산포
-
산포
: 중심으로부터 데이터가 흩어진 정도. -
범위(Range)
-
범위 = 최대값 - 최소값
-
극단적인 데이터만을 사용하는 단점 → 데이터 분포 무시, 극단값에 민감
-
-
분산(Variance)
-
데이터가 평균으로 얼마나 퍼져있는가
-
평균으로부터 제곱편차에 대한 산술평균
-
-
표준편차(Standard deviation)
-
분산의 루트(square root) 값
-
데이터의 원래 단위를 사용하여 분산에 비해 활용하기 쉬움
-
-
분산과 표준편차 특징
-
항상 0보다 같거나 크고, 모든 데이터의 값이 같을 경우에만 0이 됨
-
동일한 값을 데이터 값에 더하거나 빼주어도 분산이나 표준편차는 변하지 않는다.
-
-
모분산
모분산 $\sigma^2 = \frac{\Sigma(x - \mu)^2}{N}$
-
$\mu$ : 모집단의 산술평균
-
$x$ : 모집단 내의 특정한 관측치의 값( = 값)
-
$N$ : 모집단 내의 관측치의 수 (= 개수)
-
-
표본분산
표본 분산 $s^2 =$ $\Sigma(x -\bar{x})^2 \over n-1$
-
표본 표준분산
표본 표준분산 $s = \sqrt{\Sigma(x -\bar{x})^2 \over n-1}$
-
$s$ : 표본 표준편차이다
-
$x$ : 표본 내의 각 관측치의 값이다
-
$\bar{x}$ : 표본 평균이다. (= $\mu$)
-
n : 표본 내의 관측치의 수이다.
-
-
변동계수
(CV, Coefficient of Variation)-
표준편차를 평균의 퍼센트로 표시 (평균 대비 표준편차의 비율)
-
데이터의 상대적 산포
-
변동계수 사용하는 경우
-
다른 단위를 가진 변수들의 비교 (월급 vs. 시험성적)
-
단위는 같으나 평균에 큰 차이가 나는 변수들의 비교 (CEO의 수입 vs. 일용노동자의 수입)
-
CV = (100 x $\frac{\sigma}{\mu}$ ) % or CV = (100 x $\frac{s}{\bar{X}}$ ) %
-
-
그룹화 자료의 평균과 표준편차
-
그룹화 자료의 평균, 표준편차: 모든 데이터를 각 계급의 계급값으로 간주
-
평균
- 평균에 대한 식
$\bar{X} = \frac{\sum_{i=1}^K f_iM_i}{n}$
- 표준편차
$s = \sqrt{\frac{\sum_{i=1}^K f_i(M_i - \bar{X})^2}{n-1}} =\ \sqrt{\frac{\sum_{i=1}^K f_iM^2\ -\ n\bar{X}^2}{n-1}}$
-
K = 계급의 수
-
$f_i$ = 각 계급의 빈도수
-
$M_i$ = 계급값 (계급값은 각 계급의 중간값을 사용한다)
-
n = 총 빈도수
Reference
-
- Lind, Marchal, Wathen, (2018), McGrawHill, 강종열 등 역, 지필미디어