devFancy BE Developer

06. 이산확률 분포 (Discrete probability distribution)

2022-04-20
devfancy

이 글은 경영학부 경영통계 수업에서 배운 자료들을 정리한 내용입니다.

  • Key Point : 이항 분포, 포아송 분포

Contents

  • 확률분포들의 특성들을 식별

  • 이산 확률변수와 연속 확률변수를 구별

  • 이산 확률변수의 평균, 분산, 그리고 표준편차 계산

  • 이항 분포의 가정 설명과 확률 계산에 적용

  • 포아송 분포의 가정 설명과 확률 계산에 적용

확률 분포의 정의

  • 확률 분포 → 미래의 결과에 대한 가능성(=확률)

    • 어떤 실험에서 발생할 수 있는 모든 결과들각 결과의 확률을 나열
  • 확률 분포의 특징

    • 어떤 특정 결과의 확률 = 0 ~ 1 사이

    • 결과들은 상호 배타적 = Mutual exclusive

    • 결과들의 합 = 1

확률 변수(random variable)

  • 어떤 실험의 결과로서 측정되거나 관측된 변수

  • 변수의 우연성에 따라 다양한 값으로 결정됨 (random)

  • 확률변수 - 대문자 알파벳: X, Y, Z

  • 변수가 취하는 값 - 소문자 알파벳: x, y, z

    • 예)

    • ~고등학교 농구부원들의 학년(1 ~ 4) ⇒ 학년은 정성적 확률변수

    • ~배관공 50명의 표본에 대한 시급 ⇒ 시급은 정량적 확률변수

    • 스타벅스에 판매되는 음료의 종류 - 아메리카노, 카페라떼, 자몽에이드 ⇒ 음료의 종류는 정성적 확률변수

확률 표기법(probability notation)

  • 확률변수의 이름 - 대문자 X

  • 확률 변수의 값 - 소문자 x

  • 확률변수 X의 값이 x와 같을 때 ⇒ P(X=x)

    • 예) P(X=0) = 0.125
  • P(x)로도 쓰임 (간단하게)

    • 예) P(0) = 0.125

확률 변수의 종류-1

  • 이산확률변수 (Discrete random variable) : 분명하게 분리된 값, 불연속적

  • 어떤 정해진 값만 가질 수 있고 값들 사이에 간격이 있는 확률변수

  • 주로 수를 세어서(counting) 값을 할당

  • 예)

    • 강의실의 학생 수, 가족 구성원 수

    • 한 시간 동안 주유소에 도착하는 자동차 수

    • 지난 주에 은행에서 승인된 대출 건수, 고객들이 가지고 있는 신용카드 수

    • 특정 토요일에 판매할 것으로 생각하는 차의 대수에 대한 다음 확률 분포

이산 확률 분포 - 예제

  • P(X≤2) = P(X=0) + P(X=1) + P(X=2)

확률 변수의 종류-2

  • 연속확률변수(Continuous random variable) : 무한대의 값, 연속적

  • 주어진 구간 내에서 어떤 실수 값(무한대의 값)이라도 가질 수 있는 변ㄴ수

  • 주로 측정(measurment)에 의해 값을 할당

  • 예)

    • 학생들의 학교까지의 거리, 직장까지의 운전거리

    • ATM 앞에서 대기시간

    • 미국 애틀란티와 LA 사이의 비행시간은 4.67시간, 5.13시간 등

    • 미국 미네소타주 미네아폴리스의 강설량

이산 확률 변수의 평균

  • 평균은 자료의 중심 위치를 나타내기 위해 가장 많이 사용되는 값

  • 확률변수의 평균기대값이라고 부르기도 한다.

확률분포의 평균: $\mu = \Sigma [xP(x)]$

  • P(x) = 빈도수 / 전체 빈도수

  • 예)

    • 주사위를 한 번 던지는 실험, 주사위 눈의 확률 변수 X, 확률 변수 X의 기대값 E(X)는 ?

    • E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 3.5

    • 동전을 던져 앞 면이 나오면 1,000원을 받고, 뒷 면이 나오면 500원을 줄 때 기대값 E(X)는 ? ⇒ 1000(1/2) + -500(1/2) = 500

  • 기대값의 특성 ( a,b 는 상수 / X,Y는 확률변수)

    • E(a) = a

    • E(bX) = bE(X)

    • E(a + bX) = a + bE(x)

    • E(X + Y) = E(X) + E(Y)

    • E(aX + bY) = aE(x) + bE(Y)

확률분포의 분산과 표준편차

  • 자료에서 변동성의 정도는 분산에 의해 표현

  • 확률분포의 표준편차는 분산의 제곱근으로 계산

확률분포의 분산: $\sigma^2 = \Sigma[(x-\mu)^2P(X)]$ $(\mu = 평균)$

  • 표준편차 : $\sqrt{\sigma^2} = \sigma$

  • 분산의 특성

    • a와 b가 상수일 때 ⇒ $Var(aX+b) = a^2Var(X)$

    • 변수 X와 Y가 독립일 때 ⇒ $Var(X+Y) = Var(X) + Var(Y)$

이항 확률분포

  • 베르누이 시행(Bernoulli trial)

    • 가능한 결과의 수가 두가지로만 결정되어 있는 실험의 시행

    • 실험의 결과가 성공/실패의 두가지 상호배반적 사건으로 나누어짐

    • P(X=1) = p, P(X=0) = 1-p

    • ex) 동전 던지기, 양품/불량품, 찬성/반대, 성공/실패

    • 베르누이 확률 변수 X의 평균과 분산

      • E(X) = p

      • Var(X) = p(1-p)

      • 이항 분포 : 베르누이 시행의 반복

  • 이항 확률분포의 특징

    • 각각의 시행에서는 상호배타적인 두 가지 결과만 나타남 ⇒ 보통 성공과 실패로 표현

    • 확률변수 x: 정해진 횟수의 시행에서 성공이 나온 횟수

    • 각 시행은 통계적으로 독립 ( 예: 복원 추출) ⇒ 이전 혹은 나중 시행의 결과에 영향을 주지 X

    • 각 시행에서 ‘성공’의 확률은 처음부터 끝까지 불변

  • 이항 확률의 계산

이항 확률 공식 ⇒ $P(X) = \ {n}\mathrm{C}{x} \pi^x(1-\pi)^{n-x}$

C는 조합 기호

n는 시행 횟수 (= 전체횟수)

x는 성공 횟수로 정의된 확률 변수 (= 성공횟수)

$\pi$는 각 시행에서 성공이 나올 확률 (= 성공할 확률)

  • 예1) 복원추출로 공을 2번 추출할 때, 빨간 공 1개가 추출될 확률은 ?

    • ${2}\mathrm{C}{1}{9 \over 20}^1(1-{9 \over 20})^{2-1}$

    • n: 2

    • x: 1

    • $\pi$: 9/20

  • 예2) 동전을 10번 던질 때, 6번 앞이 나올 확률은 ?

    • $P(6) = \ _{10}\mathrm{C}_{6}{1 \over 2}^6(1-{1 \over 2})^{10-6}$ = 210
  • 예3) 오늘 한편의 비행기도 도착하지 않을 확률(하루에 5차례 있고, 비행기가 연착할 확률 = 0.20)

    • $P(0) = \ {5}\mathrm{C}{0}{0.2}^0(1-0.2)^{5-0}$ = (1)(1)(0.3277) = 0.3277

이항 확률분포의 평균, 분산

이항 분포의 평균 $\mu = n\pi$

이항 분포의 분산 $\sigma^{2} = n\pi(1-\pi)$

  • 평균: $np$

  • 분산: $npq (q = 1-p)$

  • $\pi$ 는 성공할 확률

이항 학률분포의 모양

  • 확률 $\pi$의 증가

  • 양의 방향으로 치우친 분포 $\pi = 0.3 < 0.5(=n)$

  • 대칭 분포 $\pi = 0.5$

  • 음의 방향으로 치우친 분포 $\pi = 0.7 > 0.5(=n)$

포아송 확률분포 (Poisson distribution)

  1. 확률변수는 정해진 간격안에서 어떤 사건이 발생하는 빈도이다.
  2. 사건이 발생할 확률은 간격의 크기에 비례한다.
  3. 간격들은 겹치지 않고 상호 독립이다.
  • 일정 기간 동안 걸려오는 전화의 수

  • 철판의 단위 면적 당 흠집의 수

  • 페이지당 오타의 수

  • 일정량의 혈액속에 들어있는 적혈구의 수

  • 년간 자동차 사고 사망자수

포아송 분포 $P(X) = {\mu^xe^{-\mu} \over x!}$

$\mu$는 주어진 간격 동안 발생한 성공이나 사건의 평균 횟수이다.

e는 자연로그의 밑수인 상수(2.718)

$x$는 사건발생 (성공)횟수이다.

$P(X)$는 사건이 발생한 특정 횟수 $x$의 확률이다.

  • 포아송 분포의 평균 $\mu = n\pi$

  • 포아성 분포의 평균과 분산은 같음.

  • n이 크고, $\pi(=p)$가 작을 때 이항분포는 포아송 분포로 근사됨

  • 포아성 분포은 항상 양의 방향으로 치우친 분포가 되며, 무한대로 간다.

  • 평균이 커질 수록, 포아성 분포는 대칭분포에 가까워진다.

Reference


Comments

Index