데이터 사이언스

[Data Scientist - Day 2] Probability

망나 2021. 1. 8. 16:17

목차

  • Theoretical probability
  • Sample spaces
  • Conditional probability and independence

 

Theoretical probability

동전을 던져서(experiment) 앞면이 나올 확률(P)

\(P(H) =?\)  \(\frac{num-of-possibility-that-meets-by-condition}{num-of-equally-likely-possibility}\)

 

즉, \(P(H) = 1/2 = 0.5\)

 

아래는 그래프는 python을 활용해서 2가지 실험을 총 50,000번 반복했을 때의 확률입니다. 동전 던지기는 50%로, 주사위 던지기는 16.6%로 점점 수렴하는 것을 쉽게 확인할 수 있습니다.

확률 실험

Monte Hall Problem

몬티 홀 문제는 확률 문제로 아주 유명한 문제입니다. 문제는 다음과 같이 간단합니다.

 

  • 문이 세 개가 있다. 하나의 문 뒤에는 자동차(상품)가 있고, 나머지 두 개의 문 뒤에는 염소(꽝)가 있다.
  • 참가자는 문 하나를 고른다.
  • 사회자는 참가자가 선택하지 않은 문 중 염소가 있는 문을 하나 열어서 보여준다.
  • 사회자는 참가자에게 문을 바꿀 수 있는 기회를 준다.
  • 이 때 참가자는 문을 바꾸는 게 이익일까? 바꾸지 않는 게 이익일까?

여러분은 어떻게 생각하십니까? 

 

정답은 바꾸는 것이 더 이익입니다. 선택을 바꾸지 않으면 처음 선택할 때와 같이 당첨 확률이 1/3이지만, 선택을 바꾼다면 당첨 확률은 2/3으로 높아지게 됩니다.

직관적으로 쉽게 이해가 안될 것 입니다. 저 또한 처음 문제를 들었을 때 두 개의 문 중에 하나이기 때문에 50 대 50으로 같은 확률이라고 생각했습니다. 이 처럼 확률에는 가끔 우리가 직관적으로 이해하기 힘든 트릭이 존재합니다. 이러한 트릭을 잘 해결하기 위해서는 확률에 대한 개념을 보다 정확하게 이해하고 계산할 수 있어야 합니다.


Sample space

표본 공간(sample space)은 어떤 실험이나 시행의 결과를 모두 모아놓은 집합입니다. 예를 들어, 동전 던지기와 주사위 던지기의 표본 공간은 다음과 같습니다.

이 표본 공간안에 있는 각 부분 집합들은 표본점이라고 합니다. 이를 통해서 확률을 다시 정의할 수 있습니다.

 

사건(event)란, 표본공간의 부분집합으로 어떤 조건을 만족하는 특정한 표본점들의 집합을 뜻하고 확률(probability)란 동일한 조건 하에서 동일한 실험을 무수히 많이 반복하여 실시할 때, 어떤 특정한 사건이 발생하는 비율을 뜻 합니다.

 

\(P(A) = \frac{A 사건이 일어나는 경우의 수}{모든 사건이 일어나는 경우의 수}\)

 

다시 정리하자면 확률이란, 어떤 실험(experiment)를 했을 때, 나올 수 있는 경우의 수(sample space) 중 어떤 특정한 조건을 만족하는 사건(event)이 발생하는 비율을 뜻 합니다.


Conditional probability and independence

조건부 확률

\(P(A|B)\)는 \(B\)사건이 일어났을 때, \(A\)사건이 일어날 확률을 의미합니다. 즉, \(B\)사건이 sample space가 되고 \(A\)와 \(B\)가 동시에 일어난 사건이 해당 경우가 되기 때문에 다음과 같이 공식으로 나타낼 수 있습니다.

 

\(P(A|B) = \frac{P(A\cap B)}{P(B)}\)

 

독립시행

매번 시행 할 때마다 확률이 변하지 않고 독립적인 시행을 의미합니다. 예를 들어, 주사위를 던질 때 1이 나오는 사건은 매번 1/6으로 같고 따라서 주사위 던지기는 독립시행입니다.

 

시행 횟수가 \(n\), 확률은 각각 \(p\), \(q\), \(r\)번 일어날 독립시행의 확률의 계산 공식은 다음과 같습니다.

 

\(P(X=r) = _{n}\textrm{C}_{r}(p)^{r}(q)^{n-r}\)

 

종속 사건 (dependent events) / 독립 사건 (independent events) / 배반 사건 (mutually exclusive events)

독립사건은 어느 한 사건의 발생 여부가 다른 사건이 일어날 확률에 영향을 주지 않는 두 사건 A와 B를 말 합니다.

\(P(B|A) = P(B), P(A|B) = P(A)\)

\(P(A\cap B) = P(A) * P(B)\)

 

종속사건은 독립사건이 아닌 두 사건 A와 B를 말 합니다. 일반적인 조건부 확률을 의미한다고 할 수 있습니다.

배반사건은 두 사건 \(A\)와 \(B\)가 동시에 발생하지 않는 경우, \(A\cap B\)는 공집합인 사건을 의미합니다.