데이터 사이언스

[Data Scientist - Day 1] Descriptive Statistics

망나 2020. 12. 28. 16:18

Descriptive Statistics (기술 통계학)

 

통계?

통계란, 데이터를 수집하고 분석하여 모집단을 대표할 수 있는 샘플을 추론하는 학문입니다. 즉, 통계는 모집단을 예측하기 위해 데이터를 해석하는 학문이라고 할 수 있습니다.

 

통계의 분야

- Descriptive Statistics: 데이터를 측정하고 설명하는 통계

- Inferential Statistics: 모집단에서 가져온 무작위 표본으로 모집단을 설명하고 추론하는 통계

 

기술 통계

데이터를 더 쉽게 이해할 수 있도록 평균, 중앙값과 같은 특정 숫자로 현재의 데이터를 요약하는 것 입니다. 현재 사용 가능한 데이터 이외의 일반화나 추론은 포함하지 않습니다.

 

 

일반적으로 사용 되는 측정치

- Measures of Central Tendency (중심 경향 측정)

다음 3가지 방법으로 데이터의 중심 경향을 측정할 수 있습니다.

 

1. mean: 전체 관측치 수에 대한 데이터의 모든 관측치 합계의 비율로 흔히 알고 있는 평균값을 나타냅니다.

2. median: 중앙값으로 전체 데이터를 두 개의 동일한 절반으로 나누는 지점입니다.

3. mode: 데이터에서 가장 많이 등장 하는 수치입니다. 데이터는 하나 이상의 mode 값을 가질 수 있습니다.

 

* median과 mode는 계산에 모든 데이터를 사용하지 않기 때문에 이상치(outlier)에 크게 영향을 받지 않습니다.

* 분포가 대칭인 데이터(정규 분포)는 mean = median = mode가 성립합니다.

 

예) 17, 16, 21, 18, 15, 17, 21, 19, 11, 23

mean - 17.8

median - 17.5

mode - 17, 21

 

 

- Measures of Dispersion (or Variability) (분산 또는 변동성 측정)

중심값 주변 데이터의 분산을 설명하기 위해 사용됩니다.

 

1. Absolute Deviation from Mean: 평균 절대 편차 (MAD)는 각 데이터 포인트의 평균으로부터의 절대 거리를 뜻하며 데이터 세트의 변화를 설명할 때 사용됩니다.

 

2. Variance: 분산, 데이터 포인트가 평균에서 얼마나 멀리 떨어져 있는지를 측정합니다.

 

3. Standard Deviation: 분산의 제곱근

 

4. Range: 데이터의 최대값과 최소값의 차이

 

5. Quartiles: 사분위수는 데이터를 동일한 4개의 부분으로 나누는 데이터 세트의 포인트를 의미합니다.

 

6. Skewness: 왜도는 확률 분포의 비대칭을 측정하기 위해 사용되는 수치입니다.

 

7. Kurtosis: 첨도는 정규 분포와 비교할 때 데이터에 이상치가 존재하는지의 여부를 측정하기 위해 사용됩니다.

  • Mesokurtic — 첨도가 0일때, 정규 분포와 유사한 분포를 보입니다.
  • Leptokurtic — 분포의 꼬리가 두껍고 (이상치 존재) 첨도가 정규 분포보다 높은 분포를 보입니다.
  • Platykurtic — 분포의 꼬리가 가늘고 (이상치 X) 첨도가 정규 분포보다 낮은 분포를 보입니다.

 

 

 

 

[참고]

* Descriptive Statistics

* Intro to Descriptive Statistics