devFancy BE Developer

04. 자료기술: 자료의 시각적 표현과 탐색

2022-04-18
devfancy

이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.

  • Key Point : 분위수, 왜도

Contents

  • 점도표 작성과 해석

  • 줄기 - 잎 도표 작성과 해석

  • 분위수들에 대한 이해와 계산

  • 상자도표의 작성과 분석

  • 왜도 계수의 계산과 해석

  • 산점도 작성과 해석

  • 분할표의 작성과 해석

점도표

  • 자료의 가능한 값들을 나타내는 수평선을 따라서 각 관측치를 하나의 점으로 표현

  • 분포의 모양, 최대값, 최소값을 한 눈에 볼 수 있다.

줄기-잎 도표

  • 줄기-잎 도표의 장점 (도수분포와 히스토그램의 단점을 보완)

    • 각 관측치의 실제값이 유지됨

    • 각 자리수의 값들이 도표에 표시됨

  • 각 관측치 값 → 2개의 부분으로 나누어짐

    • 앞 자리 → 줄기 / 뒤에 오는 수 → 잎

    • 줄기들은 수직 축에 표현되고, 잎들은 수평 축에 다른 값들과 서로 쌓이는 형태로 표현된다.

분위수

  • 산포, 분포의 형태를 측정하는 방법 중 하나

  • 관측치들의 여러 부분으로 나눈 값들의 위치를 정한다.

  • 사분위수, 십분위수, 백분위수

특정 백분위 수의 위치 $L_p = (n + 1) \frac{P}{100}$ㅜ

  • n: 표본의 개수

  • P: 사분위수 / 십분위수 / 백분위수

  • ex) $L_1 = 12.75$ : 12~ 13번째 사이

    • 12번째 값 = 5.4

    • 13번째 값 = 7.3

    • 12.75번째 값 = 5.4 + (7.3 - 5.4) * 0.75 = 6.825

상자도표

  • 사분위수들을 활용

  • 5개의 통계량을 표시:

    • 최소값, 최대값

    • 1사분위수

    • 중위수

    • 3사분위수

왜도(Skewness)

  • 왜도 - 자료의 치우짐 정도

  • Pearson의 왜도 계수

피어슨의 왜도 계수 $sk = \frac{3(\bar{X}- 중위수}{s}$

  • $\bar{X}$ : 포본평균

  • $s$ : 표본 표준편차

    • 왜도 계수는 분포의 대칭성(0 = 대칭)에 대한 척도

    • 왜도 계수의 값은 -3 ~ 3 사이에 분포한다.

    • 0 보다 크면 “양의 왜도”를 의미한다.

산점도

  • 산점도 : 두 개 변수 사이의 관계를 보여주는 도표

  • 두 변수 모두 등간 척도 or 비율 척도로 측정되어야 한다.

분할표

  • 분할표 : 두 가지 식별 가능한 특성에 따라 관측치들을 분류할 때 사용하는 표

  • 순서 척도 or 명목 척도로 측정된 관측치들을 2개의 특성에 따라 분류한다.

Reference


Comments

Index