06. 이산확률 분포 (Discrete probability distribution)

Contents
Reference

이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.

Key Point : 이항 분포, 포아송 분포

확률분포들의 특성들을 식별
이산 확률변수와 연속 확률변수를 구별
이산 확률변수의 평균, 분산, 그리고 표준편차 계산
이항 분포의 가정 설명과 확률 계산에 적용
포아송 분포의 가정 설명과 확률 계산에 적용

확률 분포의 정의

확률 분포 → 미래의 결과에 대한 가능성(=확률)
- 어떤 실험에서 발생할 수 있는 모든 결과들과 각 결과의 확률을 나열
확률 분포의 특징
- 어떤 특정 결과의 확률 = 0 ~ 1 사이
- 결과들은 상호 배타적 = Mutual exclusive
- 결과들의 합 = 1

확률 변수(random variable)

어떤 실험의 결과로서 측정되거나 관측된 변수
변수의 우연성에 따라 다양한 값으로 결정됨 (random)
확률변수 - 대문자 알파벳: X, Y, Z
변수가 취하는 값 - 소문자 알파벳: x, y, z
- 예)
- ~고등학교 농구부원들의 학년(1 ~ 4) ⇒ 학년은 정성적 확률변수
- ~배관공 50명의 표본에 대한 시급 ⇒ 시급은 정량적 확률변수
- 스타벅스에 판매되는 음료의 종류 - 아메리카노, 카페라떼, 자몽에이드 ⇒ 음료의 종류는 정성적 확률변수

확률 표기법(probability notation)

확률변수의 이름 - 대문자 X
확률 변수의 값 - 소문자 x
확률변수 X의 값이 x와 같을 때 ⇒ P(X=x)
- 예) P(X=0) = 0.125
P(x)로도 쓰임 (간단하게)
- 예) P(0) = 0.125

확률 변수의 종류-1

이산확률변수 (Discrete random variable) : 분명하게 분리된 값, 불연속적
어떤 정해진 값만 가질 수 있고 값들 사이에 간격이 있는 확률변수
주로 수를 세어서(counting) 값을 할당
예)
- 강의실의 학생 수, 가족 구성원 수
- 한 시간 동안 주유소에 도착하는 자동차 수
- 지난 주에 은행에서 승인된 대출 건수, 고객들이 가지고 있는 신용카드 수
- 특정 토요일에 판매할 것으로 생각하는 차의 대수에 대한 다음 확률 분포

이산 확률 분포 - 예제

P(X≤2) = P(X=0) + P(X=1) + P(X=2)

확률 변수의 종류-2

연속확률변수(Continuous random variable) : 무한대의 값, 연속적
주어진 구간 내에서 어떤 실수 값(무한대의 값)이라도 가질 수 있는 변ㄴ수
주로 측정(measurment)에 의해 값을 할당
예)
- 학생들의 학교까지의 거리, 직장까지의 운전거리
- ATM 앞에서 대기시간
- 미국 애틀란티와 LA 사이의 비행시간은 4.67시간, 5.13시간 등
- 미국 미네소타주 미네아폴리스의 강설량

이산 확률 변수의 평균

평균은 자료의 중심 위치를 나타내기 위해 가장 많이 사용되는 값
확률변수의 평균은 기대값이라고 부르기도 한다.

확률분포의 평균: $\mu = \Sigma [xP(x)]$

P(x) = 빈도수 / 전체 빈도수
예)
- 주사위를 한 번 던지는 실험, 주사위 눈의 확률 변수 X, 확률 변수 X의 기대값 E(X)는 ?
- E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 3.5
- 동전을 던져 앞 면이 나오면 1,000원을 받고, 뒷 면이 나오면 500원을 줄 때 기대값 E(X)는 ? ⇒ 1000(1/2) + -500(1/2) = 500
기대값의 특성 ( a,b 는 상수 / X,Y는 확률변수)
- E(a) = a
- E(bX) = bE(X)
- E(a + bX) = a + bE(x)
- E(X + Y) = E(X) + E(Y)
- E(aX + bY) = aE(x) + bE(Y)

확률분포의 분산과 표준편차

자료에서 변동성의 정도는 분산에 의해 표현
확률분포의 표준편차는 분산의 제곱근으로 계산

확률분포의 분산: $\sigma^2 = \Sigma[(x-\mu)^2P(X)]$ $(\mu = 평균)$

표준편차 : $\sqrt{\sigma^2} = \sigma$
분산의 특성
- a와 b가 상수일 때 ⇒ $Var(aX+b) = a^2Var(X)$
- 변수 X와 Y가 독립일 때 ⇒ $Var(X+Y) = Var(X) + Var(Y)$

이항 확률분포

베르누이 시행(Bernoulli trial)
- 가능한 결과의 수가 두가지로만 결정되어 있는 실험의 시행
- 실험의 결과가 성공/실패의 두가지 상호배반적 사건으로 나누어짐
- P(X=1) = p, P(X=0) = 1-p
- ex) 동전 던지기, 양품/불량품, 찬성/반대, 성공/실패
- 베르누이 확률 변수 X의 평균과 분산
  - E(X) = p
  - Var(X) = p(1-p)
  - 이항 분포 : 베르누이 시행의 반복
이항 확률분포의 특징
- 각각의 시행에서는 상호배타적인 두 가지 결과만 나타남 ⇒ 보통 성공과 실패로 표현
- 확률변수 x: 정해진 횟수의 시행에서 성공이 나온 횟수
- 각 시행은 통계적으로 독립 ( 예: 복원 추출) ⇒ 이전 혹은 나중 시행의 결과에 영향을 주지 X
- 각 시행에서 ‘성공’의 확률은 처음부터 끝까지 불변
이항 확률의 계산

이항 확률 공식 ⇒ $P(X) = \ {n}\mathrm{C}{x} \pi^x(1-\pi)^{n-x}$

C는 조합 기호

n는 시행 횟수 (= 전체횟수)

x는 성공 횟수로 정의된 확률 변수 (= 성공횟수)

$\pi$는 각 시행에서 성공이 나올 확률 (= 성공할 확률)

예1) 복원추출로 공을 2번 추출할 때, 빨간 공 1개가 추출될 확률은 ?
- ${2}\mathrm{C}{1}{9 \over 20}^1(1-{9 \over 20})^{2-1}$
- n: 2
- x: 1
- $\pi$: 9/20
예2) 동전을 10번 던질 때, 6번 앞이 나올 확률은 ?
- $P(6) = \ _{10}\mathrm{C}_{6}{1 \over 2}^6(1-{1 \over 2})^{10-6}$ = 210
예3) 오늘 한편의 비행기도 도착하지 않을 확률(하루에 5차례 있고, 비행기가 연착할 확률 = 0.20)
- $P(0) = \ {5}\mathrm{C}{0}{0.2}^0(1-0.2)^{5-0}$ = (1)(1)(0.3277) = 0.3277

이항 확률분포의 평균, 분산

이항 분포의 평균 $\mu = n\pi$

이항 분포의 분산 $\sigma^{2} = n\pi(1-\pi)$

평균: $np$
분산: $npq (q = 1-p)$
$\pi$ 는 성공할 확률

이항 학률분포의 모양

확률 $\pi$의 증가
양의 방향으로 치우친 분포 $\pi = 0.3 < 0.5(=n)$
대칭 분포 $\pi = 0.5$
음의 방향으로 치우친 분포 $\pi = 0.7 > 0.5(=n)$

포아송 확률분포 (Poisson distribution)

확률변수는 정해진 간격안에서 어떤 사건이 발생하는 빈도이다.
사건이 발생할 확률은 간격의 크기에 비례한다.
간격들은 겹치지 않고 상호 독립이다.

일정 기간 동안 걸려오는 전화의 수
철판의 단위 면적 당 흠집의 수
페이지당 오타의 수
일정량의 혈액속에 들어있는 적혈구의 수
년간 자동차 사고 사망자수

포아송 분포 $P(X) = {\mu^xe^{-\mu} \over x!}$

$\mu$는 주어진 간격 동안 발생한 성공이나 사건의 평균 횟수이다.

e는 자연로그의 밑수인 상수(2.718)

$x$는 사건발생 (성공)횟수이다.

$P(X)$는 사건이 발생한 특정 횟수 $x$의 확률이다.

포아송 분포의 평균 $\mu = n\pi$
포아성 분포의 평균과 분산은 같음.
n이 크고, $\pi(=p)$가 작을 때 이항분포는 포아송 분포로 근사됨
포아성 분포은 항상 양의 방향으로 치우친 분포가 되며, 무한대로 간다.
평균이 커질 수록, 포아성 분포는 대칭분포에 가까워진다.

Reference

경영경제통계학17판
- Lind, Marchal, Wathen, (2018), McGrawHill, 강종열 등 역, 지필미디어

06. 이산확률 분포 (Discrete probability distribution)

Contents

확률 분포의 정의

확률 변수(random variable)

확률 표기법(probability notation)

확률 변수의 종류-1

이산 확률 분포 - 예제

확률 변수의 종류-2

이산 확률 변수의 평균

확률분포의 분산과 표준편차

이항 확률분포

이항 확률분포의 평균, 분산

이항 학률분포의 모양

포아송 확률분포 (Poisson distribution)

Reference

Recommend