1. 확률과 확률분포
1) 확률
(1) 정의 : 어떤 사건( event )가 일어날 가능성
(2) 확실성과 불확실성
의사결정을 내리는데에는 불확실성 정도가 확실성보다 높으므로 오류를 줄이는 연구가 필요함
(3) 개념 1_ 객관적 확률
- 계산에 있어서 실험이나 관찰 필요한 확률
- 논리적 확률(고전적) : 시행 시 결과의 개수(n)가 정해져 있으며 결과가 나타날 가능성이 모두 동일할 것
- 경험적 확률(상대도수) : 동일한 조건에서 같은 실험을 반복할 때 특정 사건이 발생한 비율
- 실험 회수가 클 때의 확률 : 경험적 확률 → 논리적 확률에 근접해짐
(4) 개념 2_주관적 확률
-개인적인 지식과 경험등으로 특정사건 발생 가능성이 달라지는 확률
-생활 속에서의 의사결정은 객관적확률 + 주관적 확률 이지만 우리는 객관적확률만 다루도록 한다
2) 확률분포( Probability Distribution) : 실험, 관찰을 통해 발생가능한 모든 값과 확률을 그래프로 나타낸 것
3) 공리적 해석
-모든 확률을 다음의 공리(Axiom)를 만족
① 반드시 일어나는 사건의 확률은 1 이다.
② 모든 확률은 0~1 의 값을 갖는다.
③ 서로 독립적인 사건 A와 B에 대해 두 사건이 나타날 확률은 각 사건이 나타나는 확률의 합과 같다.
$P(A \cup B)=P(A)+P(B)$
2. 확률의 연산
1) 합사건 확률
-$P(A \cup B)=P(A)+P(B)-P(A \cap B)$
-사건 A,B가 서로 배반일 경우, $P(A \cup B)=P(A)+P(B)$
2) 곱사건 확률
-두사건 A, B가 동시에 발생할 확률
- $P(A \cap B)=P(A)P(B | A)$ : A사건의 확률 x A사건이 일어났을 때 B사건이 일어날 확률
ex) 네종류 무늬에 1~13번까지 표기된 52장의 카드가 든 주머니에서 4장의 카드를 꺼냈을 때, 모두 같은 무늬가 나올 확률
$=1\times\frac{12}{51}\times\frac{11}{50}\times\frac{10}{49}=\frac{1320}{124950}\doteq 0.0106$
→ 맨처음 1을 곱하는 이유는 종류와 상관없이 52장의 카드중 한장을 고르는 확률(P(A))이기 때문
3) 조건부 확률
-어떤 조건 (B) 이 주어진 상태에서 특정사건 (A)이 발생할 확률
-$P(A|B) = \frac{P(A\cap B)}{P(B)}$
5) 독립사건
- 두사건 A,B 가 서로 독립일 때의 확률
-$P(B|A) = P(B) P(A|B) = P(A)$
-$P(A\cap B) = P(A)P(B|A) = P(A)P(B)$
-독립성 판정
ex) 문과출신(A) 학생 중에서도 여학생(B)일 확률
구분 |
남학생 |
여학생 (B) |
합 |
이과 |
20 |
30 |
50 |
문과(A) |
30 |
20 |
50 |
합 |
50 |
50 |
100 |
$P(A) = 0.5, P(B) =0.5 P(A\cap B) = 0.2$
$P(A)P(B)= 0.5\times 0.5 = 0.25 \neq P(A\cap B) = 0.2$
= 두 사건은 독립적이지 않다
4. 베이즈 정리
1) 전확률 정리 (Theorem of total probability) : 표본공간 S를 상호배반인 사상들로 분할
$P(A) = \sum_{i=1}^{k} P(B_{i} \cap A) =\sum_{i=1}^{k} P(B_{i}) P(A| B_{i})
ex) 한 제품을 랜덤 샘플링 했을 때, 불량(F)일 확률
생산라인 |
A |
B |
C |
D |
생산비율 |
20% |
30% |
10% |
40% |
불량률 |
0.04 |
0.02 |
0.01 |
0.05 |
$=0.2\times0.04+0.3\times0.02+0.1\times0.01+0.4\times0.05=0.020$
2) 베이지언 정리(Bayesian theorem)
$P(B_{r}|A) = \frac{P(B_{r})P(A|B_{r})}{\sum_{i=1}^{k} P(B_{i})P(A|B_{i})}$
ex) 이어서, 불량품이 하나 나왔을 때 생산라인 C에서 생산되었을 확률
$P(C|F) = \frac{P(C\cup F)}{P(F)}= \frac{0.1\times 0.01}{0.020}=0.05$
5. 데이터의 형태와 척도
1) 양적 데이터(Quantitative data)
-이산적 데이터 : 셀 수(countable) 데이터 ex) 판매수, 학생수
-연속적 데이터 : 연속적으로 표시할 수 있는 데이터 ex) 무게, 길이
2) 척도
3) 데이터의 형태와 척도의 중요성
-척도에 따라 데이터의 처리 방법이 달라진다
ex) 이산형 척도는 평균이나 분산등의 일반적 분석방법에서 쓰이며
연속형 척도는 최빈값이나 중앙값에 관심을 두므로 빈도분석, 교차분석등에 이용된다
5. 확률 분포와 확률변수
1) 확률변수
(1) 정의
-실험의 결과값을 1:1 실수로 대응시키는 함수
-대분자 X, Y로 표시, 실수값은 x,y로 표시
-일정 확률로 발생하는 사건에 숫자를 부여한 변수
(2) 구분
-이산확률변수 : 변수가 취할 수 있는 값의 갯수가 유한적 ex)$X = 0, 1, 2$
-연속확률변수 : 변수가 취할 수 있는 값의 갯수가 무한적 ex) $0\leq X \leq 10$
2) 확률분포
(1)정의
-실험을 통해 발생가능한 모든 값과 확률을 그래프로 표시한 것, 상대도수로 나타낼 수 있다.
-확률변수가 취할 수 있는 모든 값에 대해 각각의 확률을 대응시킨 것
(2)구분
-이산확률분포 : 이산확률변수 X의 확률을 확률함수로 계산, 히스토그램의 막대높이
-연속확률분포 : 연속확률변수 X의 확률을 표, 그래프또는 함수식으로 나타낸것, 곡선 형태
6. 이산확률분포와 연속확률분포
1) 이산확률분포 : 확률질량함수
(1) 정의
-확률변수 X에 대한 확률은 항상 0~1 사이 값을 가진다
-한번의 시행에서 X는 하나의 값만 가진다
-확률변수X에 대한 확률의 합은 항상 1이다
(2) 구분
-이항분포 : 주어진 확률과 독립적 시행
-포아송분포 : 기대값과 독립적 사건 발생
2) 연속확률분포 : 함수밀도 함수
(1) 정의
-확률변수 X에 대한 확률은 0이다
-확률밀도함수는 항상 양의 값을 갖는다
-확률은 f(x)의 높이가 아니라 구간사이의 면적( 적분 값)으로 계산한다
-확률밀도함수의 전체 면적은 항상 1이다
(2) 구분
-균등분포 : 특정범위내 균등
-정규분포 : 독립적인 확률변수들의 평균분포, 수집된 분포를 근사, 가우시안 분포
3) 확률분포의 평균과 분산
(1) 기댓값(평균)
-이산확률분포의 기댓값 : 확률을 가중값으로 사용한 가중평균 → $X \times P(X)$ 한 것을 모두 더한것
- 연속확률분포의 기댓값 : 적분으로한 면적 넓이 →$X \times P(X) $ 들의 면적(적분)
(2) 분산 : 평균으로부터의 편차의 제곱에 대한 기댓값으로 계산 → $X^2 \times P(X)$
4) 확률분포와 의사결정
ex) 두 개의 투자안에 대해 확률분포가 다음과 같다고 할 때 어떤 투자안을 선택해야 하는가?
상황 |
P(X) |
투자안 A 수익률 |
투자안 B 수익률 |
호황 |
0.3 |
0.4 |
0.6 |
보통 |
0.5 |
0.35 |
0.3 |
불황 |
0.2 |
0.2 |
0.05 |
B 투자안이 A 투자안 기대수익보다 0.05 더 크다
7. 순열과 조합
1)순열 : 순서가 있는 것
$_nP_r = \frac {n!}{(n-r)!}$
2)조합 : 순서없이 무작위로
-$_nC_r = \frac {n!}{r!(n-r)!}$
8. 이항확률분포
1) 이항확률분포
-두가지 사상 ( 성공, 실패)만 존재한 실험을 n 회 반복적으로 시행한다고 할 때
- 한가지의 사상만 될 확률을 나타내는 확률변수 X가 같게 될 분포
2) 이항확률분포의 기댓값, 분산, 표준편차
-기댓값 $E(X) = np$
-분산 $V ar (X) = np(1-p)$
-표준편차 $\sigma (X) = \sqrt{np(1-p)}$
- n 은 실험 횟수, p or (1-p) 는 두가지 사상의 확률 (합은 1)
3) 엑셀에서 이항확률분포
ex) 한개의 동전을 3번 던지는 실험에서 앞면이 나타난 횟수를 확률변수 X라 할 때,