1. 평균과 중앙값

1) 평균(Mean)

-모든 데이터의 합을 데이터의 개수로 나눈 값

-극단적인 값이 포함되어 평균이 왜곡되는 경우 중앙값을 사용하는 것이 바람직

-$\frac{1}{n}(X_{1}+X_{2}+...+X_{n})$

 

2) 중앙값(Median)

-데이터를 크기 순서대로 나열할 때 가운데 위치하는 숫자

-데이터 갯수 $n$이 홀수일 경우 가운데 위치한 숫자

-데이터 갯수 $n$이 짝수일 경우 가운데 위치하는 $2$개의 평균값

-극단적인 값에 영향을 받지 않는 장점이 있지만 가운데 데이터의 비중이 큼

 

3) 극단적인 값이 포함된 데이터의 대푯값 비교

 

4) 절사평균(Trimmed Mean)

- 평균의 장점 + 중앙값의 장점

- 제일 높은 데이터와 제일 낮은 데이터를 제외한 나머지 데이터들의 평균

- 절사비율(%)의 결정 : 전체 데이터 개수의 몇 %의 데이터를 배제할 것인가?

ex) $5$개의 데이터에 대해 각각 1개씩 배제한다면 ? 절사율은 $\frac{2}{5}=40$%

 

5) 엑셀에서의 평균, 중앙값, 절사평균 함수

-평균  =AVERAGE(데이터범위)

- 중앙값 =MEDIAN(데이터범위)

- 20% 절사평균 =TRIMMEAN(데이터 범위, 0.2)

 

 

2. 산포도 (Measure of dispersion) 

1) 산포도 : 데이터들이 얼마나 흩어져있는가를 나타낸것 , 데이터 비교에 유용

A와 B반의 평균은 50으로 같지만 두 집단이 동일 집단이라 볼 순 없다

2) 범위 (Range)

-정의 : 데이터 최댓값과 최솟값의 차이

-특성 : 2개의 정보만을 이용하므로 범위가 클수록 산포가 크다고 말할순 없고, 극단적인 값에 영향을 받는다

 

3) 사분위수 편차(Quartile deviation)

- 정의 : 범위의 문제점을 보완한 척도로 사분위 범위의 평균값

- 계산

① 데이터를 크기순으로 나열

② 개수를 4등분할 때 1st 사분위수 (25% 지점) 와 3rd 사분위수 (75% 지점) 의 차이 

사분위수 편차(Q) = $ \frac{사분위 범위}{2}=\frac{Q_{3}-Q_{1}}{2}$

 

 

5. 분산과 표준편차

1) 분산(Variance)

- 각 데이터와 평균의 차이제곱하여 합한 값의 평균

- 산포도의 척도로서 가장 널리 사용되는 방법

- 표본과 모집단 데이터 개수 차이

모집단 전체일 경우 데이터 개수($n$)로 나누고 표본일 경우 ($n-1$)로 나누어준다

표본의 크기가 큰 경우엔 차이가 없다

 

2) 표준편차(Standard deviation)

-분산의 제곱근

- 평균을 중심으로 일정한 거리에 포함된 데이터의 비율을 계산하는 척도, 단위

 

3) 분산과 표준편차의 특징

-모든 데이터를 고려한 척도

-모든 데이터가 동일한 값일 경우 분산, 표준편차는 0

- 모든 데이터에 동일한 값 $[ + , - ] $ → 변하지 않는다

- 모든 데이터에 동일한 값 $[\times]$  → $분산\times C^2 , 표준편차\times C$

 

 

6. 왜도와 첨도

1) 왜도(Skewness)

-대푯값(평균)을 중심으로 좌우의 모양의 대칭을 측정

-데이터가 한쪽 방향으로 얼마나 치우쳐져 있는지를 나타냄

 

2) 첨도(Kurtosis)

-분포가 대푯값을 중심으로 얼마나 모여 있는지를 나타내는 척도

 

4) 엑셀을 이용한 대푯값, 산포도 계산

① [데이터 입력] [데이터 분석] 선택

② [기술통계법] 대화상자 선택후 값 입력

+ Recent posts