이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.
- Key Point : 이항 분포, 포아송 분포
Contents
-
확률분포들의 특성들을 식별
-
이산 확률변수와 연속 확률변수를 구별
-
이산 확률변수의 평균, 분산, 그리고 표준편차 계산
-
이항 분포의 가정 설명과 확률 계산에 적용
-
포아송 분포의 가정 설명과 확률 계산에 적용
확률 분포의 정의
-
확률 분포 → 미래의 결과에 대한 가능성(=확률)
- 어떤 실험에서 발생할 수 있는 모든 결과들과 각 결과의 확률을 나열
-
확률 분포의 특징
-
어떤 특정 결과의 확률 = 0 ~ 1 사이
-
결과들은 상호 배타적 = Mutual exclusive
-
결과들의 합 = 1
-
확률 변수(random variable)
-
어떤 실험의 결과로서 측정되거나 관측된 변수
-
변수의 우연성에 따라 다양한 값으로 결정됨 (random)
-
확률변수 - 대문자 알파벳: X, Y, Z
-
변수가 취하는 값 - 소문자 알파벳: x, y, z
-
예)
-
~고등학교 농구부원들의 학년(1 ~ 4) ⇒ 학년은 정성적 확률변수
-
~배관공 50명의 표본에 대한 시급 ⇒ 시급은 정량적 확률변수
-
스타벅스에 판매되는 음료의 종류 - 아메리카노, 카페라떼, 자몽에이드 ⇒ 음료의 종류는 정성적 확률변수
-
확률 표기법(probability notation)
-
확률변수의 이름 - 대문자 X
-
확률 변수의 값 - 소문자 x
-
확률변수 X의 값이 x와 같을 때 ⇒ P(X=x)
- 예) P(X=0) = 0.125
-
P(x)로도 쓰임 (간단하게)
- 예) P(0) = 0.125
확률 변수의 종류-1
-
이산확률변수
(Discrete random variable) : 분명하게 분리된 값, 불연속적 -
어떤 정해진 값만 가질 수 있고 값들 사이에 간격이 있는 확률변수
-
주로 수를 세어서(counting) 값을 할당
-
예)
-
강의실의 학생 수, 가족 구성원 수
-
한 시간 동안 주유소에 도착하는 자동차 수
-
지난 주에 은행에서 승인된 대출 건수, 고객들이 가지고 있는 신용카드 수
-
특정 토요일에 판매할 것으로 생각하는 차의 대수에 대한 다음 확률 분포
-
이산 확률 분포 - 예제
- P(X≤2) = P(X=0) + P(X=1) + P(X=2)
확률 변수의 종류-2
-
연속확률변수
(Continuous random variable) : 무한대의 값, 연속적 -
주어진 구간 내에서 어떤 실수 값(무한대의 값)이라도 가질 수 있는 변ㄴ수
-
주로 측정(measurment)에 의해 값을 할당
-
예)
-
학생들의 학교까지의 거리, 직장까지의 운전거리
-
ATM 앞에서 대기시간
-
미국 애틀란티와 LA 사이의 비행시간은 4.67시간, 5.13시간 등
-
미국 미네소타주 미네아폴리스의 강설량
-
이산 확률 변수의 평균
-
평균은 자료의 중심 위치를 나타내기 위해 가장 많이 사용되는 값
-
확률변수의 평균은
기대값
이라고 부르기도 한다.
확률분포의 평균: $\mu = \Sigma [xP(x)]$
-
P(x) = 빈도수 / 전체 빈도수
-
예)
-
주사위를 한 번 던지는 실험, 주사위 눈의 확률 변수 X, 확률 변수 X의 기대값 E(X)는 ?
-
E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 3.5
-
동전을 던져 앞 면이 나오면 1,000원을 받고, 뒷 면이 나오면 500원을 줄 때 기대값 E(X)는 ? ⇒ 1000(1/2) + -500(1/2) = 500
-
-
기대값의 특성 ( a,b 는 상수 / X,Y는 확률변수)
-
E(a) = a
-
E(bX) = bE(X)
-
E(a + bX) = a + bE(x)
-
E(X + Y) = E(X) + E(Y)
-
E(aX + bY) = aE(x) + bE(Y)
-
확률분포의 분산과 표준편차
-
자료에서 변동성의 정도는 분산에 의해 표현
-
확률분포의 표준편차는 분산의 제곱근으로 계산
확률분포의 분산: $\sigma^2 = \Sigma[(x-\mu)^2P(X)]$ $(\mu = 평균)$
-
표준편차 : $\sqrt{\sigma^2} = \sigma$
-
분산의 특성
-
a와 b가 상수일 때 ⇒ $Var(aX+b) = a^2Var(X)$
-
변수 X와 Y가 독립일 때 ⇒ $Var(X+Y) = Var(X) + Var(Y)$
-
이항 확률분포
-
베르누이 시행(Bernoulli trial)
-
가능한 결과의 수가 두가지로만 결정되어 있는 실험의 시행
-
실험의 결과가 성공/실패의 두가지 상호배반적 사건으로 나누어짐
-
P(X=1) = p, P(X=0) = 1-p
-
ex) 동전 던지기, 양품/불량품, 찬성/반대, 성공/실패
-
베르누이 확률 변수 X의 평균과 분산
-
E(X) = p
-
Var(X) = p(1-p)
-
이항 분포
: 베르누이 시행의 반복
-
-
-
이항 확률분포의 특징
-
각각의 시행에서는 상호배타적인 두 가지 결과만 나타남 ⇒ 보통 성공과 실패로 표현
-
확률변수 x: 정해진 횟수의 시행에서 성공이 나온 횟수
-
각 시행은 통계적으로 독립 ( 예: 복원 추출) ⇒ 이전 혹은 나중 시행의 결과에 영향을 주지 X
-
각 시행에서 ‘성공’의 확률은 처음부터 끝까지 불변
-
-
이항 확률의 계산
이항 확률 공식 ⇒ $P(X) = \ {n}\mathrm{C}{x} \pi^x(1-\pi)^{n-x}$
C는 조합 기호
n는 시행 횟수 (= 전체횟수)
x는 성공 횟수로 정의된 확률 변수 (= 성공횟수)
$\pi$는 각 시행에서 성공이 나올 확률 (= 성공할 확률)
-
예1) 복원추출로 공을 2번 추출할 때, 빨간 공 1개가 추출될 확률은 ?
-
${2}\mathrm{C}{1}{9 \over 20}^1(1-{9 \over 20})^{2-1}$
-
n: 2
-
x: 1
-
$\pi$: 9/20
-
-
예2) 동전을 10번 던질 때, 6번 앞이 나올 확률은 ?
- $P(6) = \ _{10}\mathrm{C}_{6}{1 \over 2}^6(1-{1 \over 2})^{10-6}$ = 210
-
예3) 오늘 한편의 비행기도 도착하지 않을 확률(하루에 5차례 있고, 비행기가 연착할 확률 = 0.20)
- $P(0) = \ {5}\mathrm{C}{0}{0.2}^0(1-0.2)^{5-0}$ = (1)(1)(0.3277) = 0.3277
이항 확률분포의 평균, 분산
이항 분포의 평균 $\mu = n\pi$
이항 분포의 분산 $\sigma^{2} = n\pi(1-\pi)$
-
평균: $np$
-
분산: $npq (q = 1-p)$
-
$\pi$ 는 성공할 확률
이항 학률분포의 모양
-
확률 $\pi$의 증가
-
양의 방향으로 치우친 분포 $\pi = 0.3 < 0.5(=n)$
-
대칭 분포 $\pi = 0.5$
-
음의 방향으로 치우친 분포 $\pi = 0.7 > 0.5(=n)$
포아송 확률분포 (Poisson distribution)
- 확률변수는 정해진 간격안에서 어떤 사건이 발생하는 빈도이다.
- 사건이 발생할 확률은 간격의 크기에 비례한다.
- 간격들은 겹치지 않고 상호 독립이다.
-
일정 기간 동안 걸려오는 전화의 수
-
철판의 단위 면적 당 흠집의 수
-
페이지당 오타의 수
-
일정량의 혈액속에 들어있는 적혈구의 수
-
년간 자동차 사고 사망자수
포아송 분포 $P(X) = {\mu^xe^{-\mu} \over x!}$
$\mu$는 주어진 간격 동안 발생한 성공이나 사건의 평균 횟수이다.
e는 자연로그의 밑수인 상수(2.718)
$x$는 사건발생 (성공)횟수이다.
$P(X)$는 사건이 발생한 특정 횟수 $x$의 확률이다.
-
포아송 분포의 평균 $\mu = n\pi$
-
포아성 분포의 평균과 분산은 같음.
-
n이 크고, $\pi(=p)$가 작을 때 이항분포는 포아송 분포로 근사됨
-
포아성 분포은 항상 양의 방향으로 치우친 분포가 되며, 무한대로 간다.
-
평균이 커질 수록, 포아성 분포는 대칭분포에 가까워진다.
Reference
-
- Lind, Marchal, Wathen, (2018), McGrawHill, 강종열 등 역, 지필미디어