1. 데이터베이스시스템의 정의

-데이터베이스 + 데이터베이스 관리시스템

-데이터베이스에 데이터를 저장 하고 관리하여 정보를 생성해주는 시스템

 

 

2. 데이터베이스 구조

1) 스키마와 인스턴스

-스키마(Schema) : 데이터베이스에 저장되는 데이터 구조와 제약조건을 정의한 것

번호
INT

이름
CHAR(10)

나이
INT

주소
CHAR(20)

-인스턴스(Instance) : 스키마에 따라 데이터베이스에 실제로 저장된 값

1

홍길동

20

사랑시고백구행복동

 

2) 3단계 데이터베이스구조

(1) 외부단계 : 개별 사용자 관점

- 1 데이터베이스 → n개 외부 스키마

- 외부스키마 : 사용자가 생각하는 데이터베이스의 모습, 서브스키마 라고도 함

(2) 개념단계 : 조직 전체의 관점

-1 데이터베이스→ 1 개념스키마

-개념스키마 : 조직 전체의 관점에서의 데이터베이스 모습, 관계, 제약조건, 보안, 접근 권한 포함

(3) 내부단계 : 개발자 관점, 물리적 저장 장치 관점

-1 데이터베이스 → 1 내부스키마

-내부스키마 : 전체 데이터베이스가 저장 장치에 실제로 저장되는 방법 정의, 레코드 구조, 필드크기, 레코드 접근 경로등 물리적 저장 구조 정의

 

 

(4) 사상(매핑) : 스키마 사이 대응관계

- 외부/개념 사상 (= 응용 인터페이스 ) 

- 개념/내부 사상 (= 저장 인터페이스)

- 미리 저장된 사상 정보를 이용하여 사용자가 원하는 데이터에 접근 → 데이터 독립성의 실현

 

(5) 데이터 독립성

- 하위 스키마가 바뀌어도 상위 스키마에게 영향을 주지 않는 특성

- 논리적 데이터 독립성 : 개념-외부간

- 물리적 데이터 독립성 : 내부-개념간

 

3) 데이터사전

=시스템 카탈로그(System catalog)

- 메타 데이터 ( = 데이터에 대한 데이터 ) 를 유지하는 시스템 데이터 베이스 

-스키마, 사상정보, 다양한 제약 조건 등 저장

- 데이터베이스 관리 시스템이 스스로 생성, 유지함

-일반 사용자도 접근이 가능하지만 검색만 가능

 

4) 데이터 디렉터리

-데이터 사전에 있는 데이터 접근시 필요한 위치정보 저장

- 일반 사용자 접근 불가

 

5) 사용자 데이터베이스

-사용자가 실제로 이용하는 일반 데이터 베이스

 

 

3. 데이터베이스 사용자

1) 데이터베이스 관리자(DBA: DataBas Administrator)

-데이터베이스시스템을 관리, 운영하는 사람

- 데이터 정의어와 데이터 제어어 사용

 

2) 최종 사용자(End user)

- 데이터베이스에 접근하여 데이터를 조작(삽입,삭제,수정,검색) 하는 사람

- 데이터 조작어 사용

 

3) 응용 프로그래머

-데이터 언어를 삽입하여 응용프로그램을 만드는 사람

-데이터 조작어 사용

 

 

4. 데이터 언어

1) 데이터 언어 : 사용자와 데이터베이스관리시스템간의 통신수단

2) 데이터 정의어(DDL: Data Difinition Language)

스키마를 정의, 수정, 삭제

 

3) 데이터 조작어(DML : Data Manipulation Language)

-데이터의 삽입, 삭제,수정 ,검색

- 절차적 데이터 조작어 : 어떤(WHAT) 데이터를 원하며, 얻기 위해선 어떻게(HOW) 할 것인지 설명

- 비절차적 데이터 조작어 : 어떤(WHAT) 데이터를 원하는지만 설명 = 선언적 언어

 

4) 데이터 제어어(DCL : Data Conrol Language)

- 내부적으로 필요한 규칙, 기법을 정의하기 위해 사용

- 사용목적 : 무결성, 보안 ,회복, 동시성 제어

 

 

5. 데이터베이스 관리 시스템의 구성

1) 데이터베이스 관리 시스템 : 데이터베이스 관리와 사용자의 데이터 처리 요구 수행

 

2) 주요 구성 요소

-질의 처리기(Query processor) : 사용자의 데이터 처리 요구를 해석하여 처리

-저장 데이터 관리자(Stored data magager) : 디스크에 저장된 데이터베이스와 데이터 사전을 관리, 접근

'School Activities > Database' 카테고리의 다른 글

관계 데이터 연산  (0) 2019.10.14
관계 데이터 모델  (0) 2019.10.14
데이터 모델링  (0) 2019.10.14
데이터베이스관리시스템  (0) 2019.10.13
데이터베이스 기본개념  (0) 2019.10.13

1. 데이터베이스 관리시스템 등장배경

1) 파일시스템

-데이터를 파일로 관리하기 위해 파일을 생성, 삭제, 수정, 검색하는 기능 제공하는 소프트웨어

-응용프로그램마다 필요 데이터를 별도의 파일로 관리

2) 파일시스템의 문제점

① 같은 내용 데이터이 여러 파일에 중복 저장  ② 동시 공유, 보안, 회복 기능이 부족

저장 공간의 낭비, 데이터 일관성데이터 무결성 유지가 어려움 → (중복이 없도록) 데이터 통합이 요구됨

*데이터 일관성 : 저장된 데이터간의 일치여부
 데이터 무결성 : 현실세계의 데이터와 저장된 데이터의 일치여부

③ 응용 프로그램이 데이터파일에 종속적  ④ 응용프로그램 개발이 쉽지 x

파일의 구조가 변하면 응용프로그램도 함께 변해야 함

 

 

2. 데이터베이스관리시스템(DBMS: DataBase Management System)

1) 정의

- 종속성, 중복성을 해결하기 위해 만든 소프트웨어

- 조직에 필요한 데이터를 데이터베이스에 통합하여 저장, 관리함

2) 주요기능

-정의기능 : 데이터베이스 구조를 정의, 수정

-조작기능 : 데이터를 삽입, 수정, 삭제, 검색하는 연산

-제어기능 : 데이털

3) 장단점

-장점 : 중복 통제, 독립성, 동시공유, 보안향상, 데이터무결성, 표준화, 회복가능, 줄어든 응용프로그램 개발 비용

-단점 : 많은 비용, 복잡한 회복과 백업, 중앙 집중 관리로 인한 취약점

4) 발전과정

-1세대 : 네트워크 DBMS(그래프 형태) , 계층 DBMS(트리 형태)

-2세대 : 관계 DBMS (테이블 형태)

-3세대 : 객체지향 DBMS, 객체관계 DBMS

-4세대 : NoSQL, NewSQL DBMS

 

'School Activities > Database' 카테고리의 다른 글

관계 데이터 연산  (0) 2019.10.14
관계 데이터 모델  (0) 2019.10.14
데이터 모델링  (0) 2019.10.14
데이터베이스시스템  (0) 2019.10.14
데이터베이스 기본개념  (0) 2019.10.13

1. 데이터와 정보

1) 데이터(data) : 현실세계에서 수집한 사실, 값

2) 정보(information) : 데이터를 의사결정에 활용할 수 있도록 가공, 처리한 것

3) 정보처리(information processing) : 데이터 → 정보과정, 데이터에서 정보를 추출하는 과정

 

 

2. 정보시스템과 데이터베이스

1) 정보시스템 : 데이터를 저장해 두었다가 필요시 유용한 정보를 만들어주는 수단

2) 데이터베이스 : 정보시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 역할 담당

 

 

3. 데이터베이스의 정의

1) 통합데이터 : 최소의 중복과 통제가능한 중복만 허용되는 데이터

2) 저장데이터 : 컴퓨터 명령으로 읽을 수 있는 매체에 저장된 데이터

3) 공유데이터 : 여러 사용자가 소유, 이용할 수 있는 공용데이터

4) 운영데이터 : 조직의 주요 기능을 수행하기 위해 지속적으로 필요한 데이터

 

 

4. 데이터베이스의 특징

1) 실시간 접근성 : 사용자 요청에 실시간 응답

2) 계속변화 : 현실세계 자체가 계속 변하므로, 데이터의 지속적인 삽입, 삭제, 수정을 통해 정확한 데이터 유지

3) 내용 기반 참조 : 주소개념, 위치개념이 없고 (= 무작위) 데이터를 내용으로 참조

4) 동시 공유 : 서로다른, 서로같은 데이터를 동시 사용할수 있도록 함

 

 

5.데이터의 분류

정형데이터 반정형데이터 비정형데이터

-구조화된 데이터

ex) 엑셀, 표

-구조에 따라 저장된 데이터 
+데이터 내용안에 구조에 대한 설명 존재

-파일형태로 저장

ex) html, xml, json 

-구조가 없는 데이터

ex) 댓글, 소셜미디어 데이터

 

'School Activities > Database' 카테고리의 다른 글

관계 데이터 연산  (0) 2019.10.14
관계 데이터 모델  (0) 2019.10.14
데이터 모델링  (0) 2019.10.14
데이터베이스시스템  (0) 2019.10.14
데이터베이스관리시스템  (0) 2019.10.13

1. 정규분포

1) 정규분포

- 연속확률분포 중 가장 많이 활용되는 분포

- 종의 형태로 된 그래프

- 연속확률변수 x의 확률밀도함수 f(x)가 다음과 같이 정해진다

$f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2}(\frac {x-\mu}{\sigma})^2}$

- 평균 $\mu$ 와 표준편차 $\sigma$에 의해 분포가 결정되며 그에 따라 분포의 모양도 달라진다.

 

 

2) 정규분포의 특징

- 특징

① 평균을 중심으로 좌우대칭이며 종 모양( bell shape ) 이다

② 정규분포의 모양은 평균 $\mu $ 와 표준편차 $\sigma $에 의해 결정된다

③ 평균 = 중앙값 = 최빈값 이다

④ 확률밀도함수 f(x) 의 곡선 아래 부분과 x축 사이의 면적은 항상 1이다.

⑤ 확률밀도함수 f(x) 는 x축에 무한대로 접근하므로 $-\infty < X <\infty$

-예제

평균이 5이고 표준편차가 2인 정규분포의 확률밀도함수 $f_1(x)$

평균이 7이고 표준편차가 1인 정규분포의 확률밀도함수 $f_2(x)$ 의 비교

$f_1(x)=\frac{1}{1\sqrt{2 \pi }}e^{-\frac{1}{2}(\frac{x-5}{2})^2}$ 
$f_2(x)=\frac{1}{1\sqrt{2 \pi }}e^{-\frac{1}{2}(\frac{x-7}{1})^2}$

f1(x) : 왼 / f2(x) : 오 

 

3)정규분포의 표준화와 표준정규분포

- 표준화의 목적

정규분포의 확률을 쉽게 구하고 평균과 표준편차가 다른 정규분포를 쉽게 비교하기위해 

- 평균과 표준편차가 다른 확률변수 X에대해 표준화를 식을 구하면 $Z= \frac{X- \mu}{\sigma }$

- 표준정규분포 : 표준화를 한 분포, 평균 $\mu$= 0 표준편차 $\sigma $ = 1인 정규분포 $N(0,1)$ 가 된다.

정규분포를 표준화하여 표준정규분포로 나타낸다

 

 

2. Z 점수

1)Z 점수(Z score) : 표준화식을 통해 얻어진 값

 

2)-Z 점수의 의미 : Z 점수는 확률변수가 평균을 중심으로 몇 배의 표준편차만큼 떨어져있는가를 나타냄

 

3) Z점수의 범위 

-$-3 \leq Z \leq 3$

-$Z>0$ 일 경우 평균보다 높음

-$Z<0$ 일 경우 평균보다 낮음

-$Z=0$ 일 경우 평균, 0에 가까워 질수록 평균에 가까워짐을 의미

 

4) T 점수

- $T= 10Z+50$

-Z 점수의 음수값, 소수점값을 포함하는 단점을 없앤 표준점수

-Z점수가 평균이 0, 표준편차가 1인 정규분포를 따른다면, T 점수는 평균이 50, 표준편차가 10인 정규분포를 따름

-T 점수의 범위 : $20  \leq T \leq 80$

 

ex1) 평균이 100이고 표준편차가 10인 정규분포 $N(100,10^2)$ 에 대해 X=150에 대한 Z 점수는?

$Z = \frac{150-100}{10}=5$

ex2) A학생이 수학 80점, 영어 90점을 받았다고 할 때, 학교 내 수학, 영어 평균이 같다면 무슨 과목을 더 잘했는지 비교가 쉽지만, 평균과 표준편차가 모두 다르다면 표준화, Z점수가 필요하다.

 

 

3. 표준정규분포표에서의 확률계산

- 표준정규분포 함수의 전체 면적(확률) = 1 , 절반은 0.5

- 표준정규분포표에서는 Z가 0이상의 값을 갖는 경우의 확률만 표시

- y축: 1의 자리와 소수이하 첫째자리

- x축: 소수이하 둘째자리

 

  ex) Z=1.25 일 경우 y축 1.2 와 x축 0.05가 만나는 값이 표준정규분포 함수에서의 0~1.25범위까지의 확률이다. 

 

 

 

4. 다양한 표준정규분포의 확률계산

1) 정규분포의 확률계산

① 문제에서 계산하려는 확률(면적)을 정규분포상에 표시

② 표준화를 통해 계산하려는 확률(면적)을 표준정규분포상에 표시

ex) 평균 350000인 정규분포를 그리고 400000 이상의 확률을 구하라

$Z = \frac {400000-350000}{5000}= 1$
$P(0  \leq Z \leq 1) = 0.3413$
$0.5-0.3413= 0.1587$

 

2) 확률변수 X값을 찾는 방법

ex) 100명 학생의 수학성적은 평균이 75, 표준편차가 10인 정규분포를 따른다고 할 때 상위 10%에 들기위해 최소 몇 점을 받아야 하는가?

상위 10% = $P(X\geq X_a) = 0.1 = X_a$이상의 범위가 0.1인 것

① $P(0 \leq Z\leq Z_a)= 0.4$ 를 만족하는 $Z_a$를 찾는다

$P(0 \leq Z \leq 1.2)= 0.3997$ 이므로 $Z_a=1.28$

③ $1.28=\frac {X_a-75}{10}$

④ $X_a=88$ 한 학생이 상위 10%안에 들기 위해서는 최소 88점을 받아야 한다.

$P(X\geq 88)=P(Z\geq 1.28) = 0.1$ 

 

 

5. 엑셀의 활용

1) 정규분포의 확률밀도함수나 누적확률  

=NORMSDIST (x, mean, standard_dev, cumulative)
X: 확률변수 , mean : 평균, standard_dev: 표준편차, cumulative (1 : 누적분포확률) (2 : 밀도 함수)

누적확률

1) 표준정규분포의 누적분포값, 누적확률

=NORMDIST (z)
z: 확률변수

ex) 표준정규분포에 대해 $P(-1.5 \leq Z \leq 2) 계산$
=NORMSDIST(2) - NORMSDIST(-1.5) = 0.910443..

 

1. 확률과 확률분포

1) 확률

(1) 정의 : 어떤 사건( event )가 일어날 가능성

(2) 확실성과 불확실성

의사결정을 내리는데에는  불확실성 정도가 확실성보다 높으므로 오류를 줄이는 연구가 필요함

(3) 개념 1_ 객관적 확률

- 계산에 있어서 실험이나 관찰 필요한 확률

- 논리적 확률(고전적) : 시행 시 결과의 개수(n)가 정해져 있으며 결과가 나타날 가능성이 모두 동일할 것

- 경험적 확률(상대도수) : 동일한 조건에서 같은 실험을 반복할 때 특정 사건이 발생한 비율

- 실험 회수가 클 때의 확률 : 경험적 확률 → 논리적 확률에 근접해짐

 

(4) 개념 2_주관적 확률

-개인적인 지식과 경험등으로 특정사건 발생 가능성이 달라지는 확률

-생활 속에서의 의사결정은 객관적확률 + 주관적 확률 이지만 우리는 객관적확률만 다루도록 한다

 

2) 확률분포( Probability Distribution) : 실험, 관찰을 통해 발생가능한 모든 값과 확률을 그래프로 나타낸 것

 

3) 공리적 해석

-모든 확률을 다음의 공리(Axiom)를 만족

① 반드시 일어나는 사건의 확률은 1 이다.

② 모든 확률은 0~1 의 값을 갖는다.

③ 서로 독립적인 사건 A와 B에 대해 두 사건이 나타날 확률은 각 사건이 나타나는 확률의 합과 같다.

$P(A \cup B)=P(A)+P(B)$

 

 

2. 확률의 연산

1) 합사건 확률

-$P(A \cup B)=P(A)+P(B)-P(A \cap B)$

-사건 A,B가 서로 배반일 경우, $P(A \cup B)=P(A)+P(B)$

 

2) 곱사건 확률

-두사건 A, B가 동시에 발생할 확률

- $P(A \cap B)=P(A)P(B | A)$     : A사건의 확률 x A사건이 일어났을 때 B사건이 일어날 확률

ex) 네종류 무늬에 1~13번까지 표기된 52장의 카드가 든 주머니에서 4장의 카드를 꺼냈을 때, 모두 같은 무늬가 나올 확률

$=1\times\frac{12}{51}\times\frac{11}{50}\times\frac{10}{49}=\frac{1320}{124950}\doteq 0.0106$

→ 맨처음 1을 곱하는 이유는 종류와 상관없이 52장의 카드중 한장을 고르는 확률(P(A))이기 때문

 

3) 조건부 확률

-어떤 조건 (B) 이 주어진 상태에서 특정사건 (A)이 발생할 확률

-$P(A|B) = \frac{P(A\cap B)}{P(B)}$

 

5) 독립사건

- 두사건 A,B 가 서로 독립일 때의 확률

-$P(B|A) = P(B)     P(A|B) = P(A)$

-$P(A\cap B) = P(A)P(B|A) = P(A)P(B)$

-독립성 판정

ex) 문과출신(A) 학생 중에서도 여학생(B)일 확률

구분 남학생 여학생 (B)
이과 20 30 50
문과(A) 30 20 50
50 50 100

$P(A) = 0.5, P(B) =0.5  P(A\cap B) = 0.2$

$P(A)P(B)= 0.5\times 0.5 = 0.25  \neq  P(A\cap B) = 0.2$

= 두 사건은 독립적이지 않다

 

 

4. 베이즈 정리

1) 전확률 정리 (Theorem of total probability) : 표본공간 S를 상호배반인 사상들로 분할

$P(A) = \sum_{i=1}^{k} P(B_{i} \cap A) =\sum_{i=1}^{k} P(B_{i}) P(A| B_{i})

ex) 한 제품을 랜덤 샘플링 했을 때, 불량(F)일 확률

생산라인 A B C D
생산비율 20% 30% 10% 40%
불량률 0.04 0.02 0.01 0.05

$=0.2\times0.04+0.3\times0.02+0.1\times0.01+0.4\times0.05=0.020$

 

2) 베이지언 정리(Bayesian theorem) 

$P(B_{r}|A) = \frac{P(B_{r})P(A|B_{r})}{\sum_{i=1}^{k} P(B_{i})P(A|B_{i})}$

ex) 이어서, 불량품이 하나 나왔을 때 생산라인 C에서 생산되었을 확률

$P(C|F) = \frac{P(C\cup F)}{P(F)}= \frac{0.1\times 0.01}{0.020}=0.05$

5. 데이터의 형태와 척도

1) 양적 데이터(Quantitative data)

-이산적 데이터 : 셀 수(countable) 데이터 ex) 판매수, 학생수

-연속적 데이터 : 연속적으로 표시할 수 있는 데이터 ex) 무게, 길이

 

2) 척도

 

3) 데이터의 형태와 척도의 중요성

-척도에 따라 데이터의 처리 방법이 달라진다

ex) 이산형 척도는 평균이나 분산등의 일반적 분석방법에서 쓰이며

     연속형 척도는 최빈값이나 중앙값에 관심을 두므로 빈도분석, 교차분석등에 이용된다

 

 

5. 확률 분포와 확률변수

1) 확률변수

(1) 정의

-실험의 결과값을 1:1 실수로 대응시키는 함수

-대분자 X, Y로 표시, 실수값은 x,y로 표시

-일정 확률로 발생하는 사건에 숫자를 부여한 변수

(2) 구분

-이산확률변수 : 변수가 취할 수 있는 값의 갯수가 유한적 ex)$X = 0, 1, 2$

-연속확률변수 : 변수가 취할 수 있는 값의 갯수가 무한적 ex) $0\leq X \leq 10$ 

 

2) 확률분포

(1)정의

-실험을 통해 발생가능한 모든 값과 확률을 그래프로 표시한 것, 상대도수로 나타낼 수 있다.

-확률변수가 취할 수 있는 모든 값에 대해 각각의 확률을 대응시킨 것

(2)구분

-이산확률분포 : 이산확률변수 X의 확률을 확률함수로 계산, 히스토그램의 막대높이

-연속확률분포 : 연속확률변수 X의 확률을 표, 그래프또는 함수식으로 나타낸것, 곡선 형태

 

 

6. 이산확률분포와 연속확률분포

1) 이산확률분포 : 확률질량함수

(1) 정의

-확률변수 X에 대한 확률은 항상 0~1 사이 값을 가진다

-한번의 시행에서 X는 하나의 값만 가진다

-확률변수X에 대한 확률의 합은 항상 1이다

(2) 구분

-이항분포 : 주어진 확률과 독립적 시행

-포아송분포 : 기대값과 독립적 사건 발생

 

2) 연속확률분포 : 함수밀도 함수

(1) 정의

-확률변수 X에 대한 확률은 0이다

-확률밀도함수는 항상 양의 값을 갖는다

-확률은 f(x)의 높이가 아니라 구간사이의 면적( 적분 값)으로 계산한다

-확률밀도함수의 전체 면적은 항상 1이다

(2) 구분

-균등분포 : 특정범위내 균등

-정규분포 : 독립적인 확률변수들의 평균분포, 수집된 분포를 근사, 가우시안 분포

 

3) 확률분포의 평균과 분산

(1) 기댓값(평균)

-이산확률분포의 기댓값 : 확률을 가중값으로 사용한 가중평균 → $X \times P(X)$ 한 것을 모두 더한것

- 연속확률분포의 기댓값 : 적분으로한 면적 넓이 $X \times P(X) $ 들의 면적(적분)

(2) 분산 : 평균으로부터의 편차의 제곱에 대한 기댓값으로 계산 $X^2 \times P(X)$

 

4) 확률분포와 의사결정

ex) 두 개의 투자안에 대해 확률분포가 다음과 같다고 할 때 어떤 투자안을 선택해야 하는가?

상황 P(X) 투자안 A 수익률 투자안 B 수익률
호황 0.3 0.4 0.6
보통 0.5 0.35 0.3
불황 0.2 0.2 0.05

B 투자안이 A 투자안 기대수익보다  0.05 더 크다

 

 

7. 순열과 조합

1)순열 : 순서가 있는 것

$_nP_r = \frac {n!}{(n-r)!}$

 

2)조합 : 순서없이 무작위로

-$_nC_r = \frac {n!}{r!(n-r)!}$

 

 

8. 이항확률분포

1) 이항확률분포

-두가지 사상 ( 성공, 실패)만 존재한 실험을 n 회 반복적으로 시행한다고 할 때

- 한가지의 사상만 될 확률을 나타내는 확률변수 X가 같게 될 분포

 

2) 이항확률분포의 기댓값, 분산, 표준편차

-기댓값 $E(X) = np$

-분산 $V ar (X) = np(1-p)$

-표준편차 $\sigma (X) = \sqrt{np(1-p)}$

- n 은 실험 횟수, p or (1-p) 는 두가지 사상의 확률 (합은 1) 

 

3) 엑셀에서 이항확률분포

ex) 한개의 동전을 3번 던지는 실험에서 앞면이 나타난 횟수를 확률변수 X라 할 때,

 

1. 평균과 중앙값

1) 평균(Mean)

-모든 데이터의 합을 데이터의 개수로 나눈 값

-극단적인 값이 포함되어 평균이 왜곡되는 경우 중앙값을 사용하는 것이 바람직

-$\frac{1}{n}(X_{1}+X_{2}+...+X_{n})$

 

2) 중앙값(Median)

-데이터를 크기 순서대로 나열할 때 가운데 위치하는 숫자

-데이터 갯수 $n$이 홀수일 경우 가운데 위치한 숫자

-데이터 갯수 $n$이 짝수일 경우 가운데 위치하는 $2$개의 평균값

-극단적인 값에 영향을 받지 않는 장점이 있지만 가운데 데이터의 비중이 큼

 

3) 극단적인 값이 포함된 데이터의 대푯값 비교

 

4) 절사평균(Trimmed Mean)

- 평균의 장점 + 중앙값의 장점

- 제일 높은 데이터와 제일 낮은 데이터를 제외한 나머지 데이터들의 평균

- 절사비율(%)의 결정 : 전체 데이터 개수의 몇 %의 데이터를 배제할 것인가?

ex) $5$개의 데이터에 대해 각각 1개씩 배제한다면 ? 절사율은 $\frac{2}{5}=40$%

 

5) 엑셀에서의 평균, 중앙값, 절사평균 함수

-평균  =AVERAGE(데이터범위)

- 중앙값 =MEDIAN(데이터범위)

- 20% 절사평균 =TRIMMEAN(데이터 범위, 0.2)

 

 

2. 산포도 (Measure of dispersion) 

1) 산포도 : 데이터들이 얼마나 흩어져있는가를 나타낸것 , 데이터 비교에 유용

A와 B반의 평균은 50으로 같지만 두 집단이 동일 집단이라 볼 순 없다

2) 범위 (Range)

-정의 : 데이터 최댓값과 최솟값의 차이

-특성 : 2개의 정보만을 이용하므로 범위가 클수록 산포가 크다고 말할순 없고, 극단적인 값에 영향을 받는다

 

3) 사분위수 편차(Quartile deviation)

- 정의 : 범위의 문제점을 보완한 척도로 사분위 범위의 평균값

- 계산

① 데이터를 크기순으로 나열

② 개수를 4등분할 때 1st 사분위수 (25% 지점) 와 3rd 사분위수 (75% 지점) 의 차이 

사분위수 편차(Q) = $ \frac{사분위 범위}{2}=\frac{Q_{3}-Q_{1}}{2}$

 

 

5. 분산과 표준편차

1) 분산(Variance)

- 각 데이터와 평균의 차이제곱하여 합한 값의 평균

- 산포도의 척도로서 가장 널리 사용되는 방법

- 표본과 모집단 데이터 개수 차이

모집단 전체일 경우 데이터 개수($n$)로 나누고 표본일 경우 ($n-1$)로 나누어준다

표본의 크기가 큰 경우엔 차이가 없다

 

2) 표준편차(Standard deviation)

-분산의 제곱근

- 평균을 중심으로 일정한 거리에 포함된 데이터의 비율을 계산하는 척도, 단위

 

3) 분산과 표준편차의 특징

-모든 데이터를 고려한 척도

-모든 데이터가 동일한 값일 경우 분산, 표준편차는 0

- 모든 데이터에 동일한 값 $[ + , - ] $ → 변하지 않는다

- 모든 데이터에 동일한 값 $[\times]$  → $분산\times C^2 , 표준편차\times C$

 

 

6. 왜도와 첨도

1) 왜도(Skewness)

-대푯값(평균)을 중심으로 좌우의 모양의 대칭을 측정

-데이터가 한쪽 방향으로 얼마나 치우쳐져 있는지를 나타냄

 

2) 첨도(Kurtosis)

-분포가 대푯값을 중심으로 얼마나 모여 있는지를 나타내는 척도

 

4) 엑셀을 이용한 대푯값, 산포도 계산

① [데이터 입력] [데이터 분석] 선택

② [기술통계법] 대화상자 선택후 값 입력

+ Recent posts