이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.
확률분포들의 특성들을 식별
이산 확률변수와 연속 확률변수를 구별
이산 확률변수의 평균, 분산, 그리고 표준편차 계산
이항 분포의 가정 설명과 확률 계산에 적용
포아송 분포의 가정 설명과 확률 계산에 적용
확률 분포 → 미래의 결과에 대한 가능성(=확률)
확률 분포의 특징
어떤 특정 결과의 확률 = 0 ~ 1 사이
결과들은 상호 배타적 = Mutual exclusive
결과들의 합 = 1
어떤 실험의 결과로서 측정되거나 관측된 변수
변수의 우연성에 따라 다양한 값으로 결정됨 (random)
확률변수 - 대문자 알파벳: X, Y, Z
변수가 취하는 값 - 소문자 알파벳: x, y, z
예)
~고등학교 농구부원들의 학년(1 ~ 4) ⇒ 학년은 정성적 확률변수
~배관공 50명의 표본에 대한 시급 ⇒ 시급은 정량적 확률변수
스타벅스에 판매되는 음료의 종류 - 아메리카노, 카페라떼, 자몽에이드 ⇒ 음료의 종류는 정성적 확률변수
확률변수의 이름 - 대문자 X
확률 변수의 값 - 소문자 x
확률변수 X의 값이 x와 같을 때 ⇒ P(X=x)
P(x)로도 쓰임 (간단하게)
이산확률변수
(Discrete random variable) : 분명하게 분리된 값, 불연속적
어떤 정해진 값만 가질 수 있고 값들 사이에 간격이 있는 확률변수
주로 수를 세어서(counting) 값을 할당
예)
강의실의 학생 수, 가족 구성원 수
한 시간 동안 주유소에 도착하는 자동차 수
지난 주에 은행에서 승인된 대출 건수, 고객들이 가지고 있는 신용카드 수
특정 토요일에 판매할 것으로 생각하는 차의 대수에 대한 다음 확률 분포
연속확률변수
(Continuous random variable) : 무한대의 값, 연속적
주어진 구간 내에서 어떤 실수 값(무한대의 값)이라도 가질 수 있는 변ㄴ수
주로 측정(measurment)에 의해 값을 할당
예)
학생들의 학교까지의 거리, 직장까지의 운전거리
ATM 앞에서 대기시간
미국 애틀란티와 LA 사이의 비행시간은 4.67시간, 5.13시간 등
미국 미네소타주 미네아폴리스의 강설량
평균은 자료의 중심 위치를 나타내기 위해 가장 많이 사용되는 값
확률변수의 평균은 기대값
이라고 부르기도 한다.
확률분포의 평균: $\mu = \Sigma [xP(x)]$
P(x) = 빈도수 / 전체 빈도수
예)
주사위를 한 번 던지는 실험, 주사위 눈의 확률 변수 X, 확률 변수 X의 기대값 E(X)는 ?
E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 3.5
동전을 던져 앞 면이 나오면 1,000원을 받고, 뒷 면이 나오면 500원을 줄 때 기대값 E(X)는 ? ⇒ 1000(1/2) + -500(1/2) = 500
기대값의 특성 ( a,b 는 상수 / X,Y는 확률변수)
E(a) = a
E(bX) = bE(X)
E(a + bX) = a + bE(x)
E(X + Y) = E(X) + E(Y)
E(aX + bY) = aE(x) + bE(Y)
자료에서 변동성의 정도는 분산에 의해 표현
확률분포의 표준편차는 분산의 제곱근으로 계산
확률분포의 분산: $\sigma^2 = \Sigma[(x-\mu)^2P(X)]$ $(\mu = 평균)$
표준편차 : $\sqrt{\sigma^2} = \sigma$
분산의 특성
a와 b가 상수일 때 ⇒ $Var(aX+b) = a^2Var(X)$
변수 X와 Y가 독립일 때 ⇒ $Var(X+Y) = Var(X) + Var(Y)$
베르누이 시행(Bernoulli trial)
가능한 결과의 수가 두가지로만 결정되어 있는 실험의 시행
실험의 결과가 성공/실패의 두가지 상호배반적 사건으로 나누어짐
P(X=1) = p, P(X=0) = 1-p
ex) 동전 던지기, 양품/불량품, 찬성/반대, 성공/실패
베르누이 확률 변수 X의 평균과 분산
E(X) = p
Var(X) = p(1-p)
이항 분포
: 베르누이 시행의 반복
이항 확률분포의 특징
각각의 시행에서는 상호배타적인 두 가지 결과만 나타남 ⇒ 보통 성공과 실패로 표현
확률변수 x: 정해진 횟수의 시행에서 성공이 나온 횟수
각 시행은 통계적으로 독립 ( 예: 복원 추출) ⇒ 이전 혹은 나중 시행의 결과에 영향을 주지 X
각 시행에서 ‘성공’의 확률은 처음부터 끝까지 불변
이항 확률의 계산
이항 확률 공식 ⇒ $P(X) = \ {n}\mathrm{C}{x} \pi^x(1-\pi)^{n-x}$
C는 조합 기호
n는 시행 횟수 (= 전체횟수)
x는 성공 횟수로 정의된 확률 변수 (= 성공횟수)
$\pi$는 각 시행에서 성공이 나올 확률 (= 성공할 확률)
이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.
확률, 실험, 사건 결과에 대해 정의
덧셈 법칙을 활용하여 확률 계산
곱셈법칙을 활용하여 확률 계산
분할표를 활용하여 확률 계산
계수법칙을 활용하여 경우의 수를 결정
확률 : 불확실한 상황에서 어떤 일이 일어날 가능성 (or 우연성)
확률을 정의하는 용어
실험(Experiment) : 어떤 결과를 발생시키는 행위
표본공간, 결과(S, Sample space) : 어떤 실험에서 얻을 수 있는 모든 결과의 집합
사건 or 사상(Event) : 어떤 실험에서 가능한 한 개 또는 여러 개 결과의 집합 (표본공간의 부분집합)
확률 : 어떤 사건이 일어날 가능성(0≤ P(A) ≤ 1)
확률의 덧셈법칙 (Rule of addition)
P(A or B) = P(A) + P(B) – P(A and B) (덧셈의 일반법칙)
P(A or B) = P(A) + P(B), 사건 A와 B가 상호배반적일 때 (덧셈의 특수법칙)
결합확률 (Joint probability)
두 개 이상의 사건이 동시에 일어날 확률
P(A and B) = P(A) + P(B) – P(A or B)
P(A and B) = 0, 사건 A와 B가 상호배반적일 때
확률의 곱셈법칙 (Rule of multiplication)
두 사건 A와 B가 동시에 일어날때의 결합 확률(Joint probability)
종속 → P(A ∩ B) = P(A)P(B | A) = P(B)P(A | B) |
조건부 확률 (Conditional probability)
어떤 사건이 이미 발생한 상태에서 다른 사건이 일어날 확률
종속 → P(A | B) = $\frac{P(A ∩ B)}{P(B)}$ |
독립 → P(A | B) = $\frac{P(A)P(B)}{P(B)}$ = P(A) |
상호배반적 사건과 독립사건
두 사건이 상호 배반적이라면 두 사건은 독립일까 ?
결론적으로는 “No”
구체적 이유 : 상호배반적은 P(A ∩ B) = 0 이고, 독립일 경우, P(A ∩ B) = P(A)P(B) > 0 이기 때문이다.
팩토리얼
순열과 조합
순열 ${n}\mathrm{P}{r}$ (Permutation)
n개 물건 중 r개를 순서대로 배열하는 경우의 수
$_{n}\mathrm{P}_{r} = \frac{n!}{(n-r)!}$
n : 전체 갯수, r: 선택한 갯수
조합 $_{n}\mathrm{C}_{r}$ (Combination)
n개 물건 중 r개를 순서와 관계없이 선택하는 경우의 수
순서 고려 X
$_{n}\mathrm{C}_{r} = \frac{n!}{r!(n-r)!}$
이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.
점도표 작성과 해석
줄기 - 잎 도표 작성과 해석
분위수들에 대한 이해와 계산
상자도표의 작성과 분석
왜도 계수의 계산과 해석
산점도 작성과 해석
분할표의 작성과 해석
자료의 가능한 값들을 나타내는 수평선을 따라서 각 관측치를 하나의 점으로 표현
분포의 모양, 최대값, 최소값을 한 눈에 볼 수 있다.
줄기-잎 도표의 장점 (도수분포와 히스토그램의 단점을 보완)
각 관측치의 실제값이 유지됨
각 자리수의 값들이 도표에 표시됨
각 관측치 값 → 2개의 부분으로 나누어짐
앞 자리 → 줄기 / 뒤에 오는 수 → 잎
줄기들은 수직 축에 표현되고, 잎들은 수평 축에 다른 값들과 서로 쌓이는 형태로 표현된다.
산포, 분포의 형태를 측정하는 방법 중 하나
관측치들의 여러 부분으로 나눈 값들의 위치를 정한다.
사분위수, 십분위수, 백분위수
특정 백분위 수의 위치 $L_p = (n + 1) \frac{P}{100}$ㅜ
이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.
정성변수를 도수표와 상대도수표로 요약한다.
도수표를 막대도표 또는 파이도표로 표현한다.
정량변수를 도수분포 또는 상대도수분포로 요약한다.
도수분포를 히스토그램 또는 도수다각형으로 표현한다.
이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.
산술평균, 중위수, 최반값을 계산하고 해석한다.
가중평균을 계산한다.
기하평균을 계산하고 해석한다.
범위, 분산, 표준편차, 변동계수를 계산하고 해석한다.
그룹 데이터에 대한 산술평균과 표준편차를 계산한다.
위치척도
: 데이터의 집합의 중심 경향을 기술하는 데 사용
산술평균
모평균 $\mu = \frac{\Sigma x}{N}$
$\mu$ : 모평균을 나타낸다.
$x$ : 특정한 값을 타나낸다.
N : 모집단 내의 값의 개수이다.
표본평균 $\bar{x} = \frac{\Sigma x}{n}$
$\bar{x}$ : 표본평균을 나타낸다.
n : 표본의 개수이다.
특성
등간척도 또는 비율척도가 요구된다.
평균은 유일한 값
평균으로부터 각 값들까지의 편차의 합은 0
매우 크거나 작은값에 영향을 받는다.
중위수(중앙값) (median)
최소에서 최대의 순서로 정렬된 값들의 중간점
중위수 = $\frac{(n+1)}{2}$
짝수일 경우 두 값의 산술 평균이 중위수이다.
적어도 순서척도가 요구된다.
최빈값
가장 빈번하게 출현하는 관측치 값
특성
명목척도 데이터에서 사용될 수 있다.
(=중위수)극도로 작거나 큰 값에 영향을 받지 않는다. $\nleftrightarrow$ 평균은 영향을 받는다.
평균, 중앙값과 달리 값이 여러개 일 수 있다 $\nleftrightarrow$ 평균, 중앙값은 값이 하나
최빈값은 항상 분포의 봉우리, 중위수는 최빈값과 평균의 사이
가중평균(weighted mean)
같은 값을 가진 여러 개의 관측치가 있을 때 산술평균을 계산하는 방법
가중평균은 각 관측치 x와 이에 상응하는 가중치 w를 곱하여 구한다
가중평균 $\frac{\Sigma 판매량 * 개당이익}{\Sigma 판매량} = \frac{\sum_{i=1}^N W_iX_i}{\sum_{i=1}^N W_i}$
W: 가중치(갯수) , X: 관측치(값)
기하평균(geometric mean)
시간에 따른 백분율, 비율, 지수, 성장률의 변화의 평균
기하평균 $GM = \sqrt[n]{ {(x_1)}{(x_2)}…{(x_n)} }$
시간에 따른 증가율 $GM = \sqrt[n]{\frac{기말의 값}{기초의 값}} - 1$