1. 평균과 중앙값
1) 평균(Mean)
-모든 데이터의 합을 데이터의 개수로 나눈 값
-극단적인 값이 포함되어 평균이 왜곡되는 경우 중앙값을 사용하는 것이 바람직
-$\frac{1}{n}(X_{1}+X_{2}+...+X_{n})$
2) 중앙값(Median)
-데이터를 크기 순서대로 나열할 때 가운데 위치하는 숫자
-데이터 갯수 $n$이 홀수일 경우 가운데 위치한 숫자
-데이터 갯수 $n$이 짝수일 경우 가운데 위치하는 $2$개의 평균값
-극단적인 값에 영향을 받지 않는 장점이 있지만 가운데 데이터의 비중이 큼
3) 극단적인 값이 포함된 데이터의 대푯값 비교
4) 절사평균(Trimmed Mean)
- 평균의 장점 + 중앙값의 장점
- 제일 높은 데이터와 제일 낮은 데이터를 제외한 나머지 데이터들의 평균
- 절사비율(%)의 결정 : 전체 데이터 개수의 몇 %의 데이터를 배제할 것인가?
ex) $5$개의 데이터에 대해 각각 1개씩 배제한다면 ? 절사율은 $\frac{2}{5}=40$%
5) 엑셀에서의 평균, 중앙값, 절사평균 함수
-평균 =AVERAGE(데이터범위)
- 중앙값 =MEDIAN(데이터범위)
- 20% 절사평균 =TRIMMEAN(데이터 범위, 0.2)
2. 산포도 (Measure of dispersion)
1) 산포도 : 데이터들이 얼마나 흩어져있는가를 나타낸것 , 데이터 비교에 유용
2) 범위 (Range)
-정의 : 데이터 최댓값과 최솟값의 차이
-특성 : 2개의 정보만을 이용하므로 범위가 클수록 산포가 크다고 말할순 없고, 극단적인 값에 영향을 받는다
3) 사분위수 편차(Quartile deviation)
- 정의 : 범위의 문제점을 보완한 척도로 사분위 범위의 평균값
- 계산
① 데이터를 크기순으로 나열
② 개수를 4등분할 때 1st 사분위수 (25% 지점) 와 3rd 사분위수 (75% 지점) 의 차이
사분위수 편차(Q) = $ \frac{사분위 범위}{2}=\frac{Q_{3}-Q_{1}}{2}$
5. 분산과 표준편차
1) 분산(Variance)
- 각 데이터와 평균의 차이를 제곱하여 합한 값의 평균
- 산포도의 척도로서 가장 널리 사용되는 방법
- 표본과 모집단 데이터 개수 차이
모집단 전체일 경우 데이터 개수($n$)로 나누고 표본일 경우 ($n-1$)로 나누어준다
표본의 크기가 큰 경우엔 차이가 없다
2) 표준편차(Standard deviation)
-분산의 제곱근
- 평균을 중심으로 일정한 거리에 포함된 데이터의 비율을 계산하는 척도, 단위
3) 분산과 표준편차의 특징
-모든 데이터를 고려한 척도
-모든 데이터가 동일한 값일 경우 분산, 표준편차는 0
- 모든 데이터에 동일한 값 $[ + , - ] $ → 변하지 않는다
- 모든 데이터에 동일한 값 $[\times]$ → $분산\times C^2 , 표준편차\times C$
6. 왜도와 첨도
1) 왜도(Skewness)
-대푯값(평균)을 중심으로 좌우의 모양의 대칭을 측정
-데이터가 한쪽 방향으로 얼마나 치우쳐져 있는지를 나타냄
2) 첨도(Kurtosis)
-분포가 대푯값을 중심으로 얼마나 모여 있는지를 나타내는 척도
4) 엑셀을 이용한 대푯값, 산포도 계산
① [데이터 입력] → [데이터 분석] 선택
② [기술통계법] 대화상자 선택후 값 입력
'School Activities > Math' 카테고리의 다른 글
[확률과 통계]결합,주변,조건부,독립 확률분포 (0) | 2019.10.18 |
---|---|
[확률과 통계] 정규분포와 표준정규분포 (0) | 2019.10.13 |
[확률과 통계] 확률변수와 확률분포 , 척도 (0) | 2019.10.12 |
[확률과 통계] 그래프 그리기 (0) | 2019.10.12 |