데이터 사이언스 7

[Data Scientist - Day 2] Probability

목차 Theoretical probability Sample spaces Conditional probability and independence Theoretical probability 동전을 던져서(experiment) 앞면이 나올 확률(P) \(P(H) =?\) \(\frac{num-of-possibility-that-meets-by-condition}{num-of-equally-likely-possibility}\) 즉, \(P(H) = 1/2 = 0.5\) 아래는 그래프는 python을 활용해서 2가지 실험을 총 50,000번 반복했을 때의 확률입니다. 동전 던지기는 50%로, 주사위 던지기는 16.6%로 점점 수렴하는 것을 쉽게 확인할 수 있습니다. Monte Hall Problem 몬티 홀..

[Data Scientist - Day 1] Descriptive Statistics

Descriptive Statistics (기술 통계학) 통계? 통계란, 데이터를 수집하고 분석하여 모집단을 대표할 수 있는 샘플을 추론하는 학문입니다. 즉, 통계는 모집단을 예측하기 위해 데이터를 해석하는 학문이라고 할 수 있습니다. 통계의 분야 - Descriptive Statistics: 데이터를 측정하고 설명하는 통계 - Inferential Statistics: 모집단에서 가져온 무작위 표본으로 모집단을 설명하고 추론하는 통계 기술 통계 데이터를 더 쉽게 이해할 수 있도록 평균, 중앙값과 같은 특정 숫자로 현재의 데이터를 요약하는 것 입니다. 현재 사용 가능한 데이터 이외의 일반화나 추론은 포함하지 않습니다. 일반적으로 사용 되는 측정치 - Measures of Central Tendency (..

Mounting Google Drive as a folder in Ubuntu

구글 드라이브를 우분투에 마운팅하기!! Reference Mounting Google Drive as a folder in Ubuntu At work we’re setting up a system so we can run Python scripts on files in Google Drive, but these scripts need to be continuously running so they need to live on a server. To get this working, we needed to mount our Google Drive folder onto the Ubuntu mac olgabotvinnik.com 1. Ubuntu에 command-line google drive 설치하기 googl..

[ Data Handling ] Data Class Imbalance Problem

데이터 클래스 불균형 문제 데이터 분석시 대부분의 데이터에서 우리는 데이터 불균형 문제를 마주하게 됩니다. 데이터 클래스 불균형이란, 예를 들어 타겟 클래스가 1, 2 두 가지인 데이터 세트에서 클래스 1의 데이터가 90%인데 반해 클래스 2의 데이터가 10% 밖에 없는 경우를 뜻 합니다. 이러한 클래스 간의 불균형 문제를 해결하지 못한다면 결국에는 우리는 의미 없는 모델을 최적화하려고 애쓰는 자신을 발견하게 됩니다... 데이터 불균형이 있는 있는 상태에서도 간단한 모델을 이용한 예측으로도 90%의 정확도(accuracy)를 얻을 수 있습니다. 왜냐? 데이터의 90%가 A 클래스이기 때문에 계속해서 모델의 예측값이 계속 A여도 정확도는 90%가 될 것 입니다. 여기서 정확도가 90%라는 것만 보고 쉽게 ..

[Data Handling] Reduce Memory Size for Dataset

데이터 메모리 사이즈 줄이기 kaggel competition에 참여하다보면 데이터가 size가 너무 커서 다루기가 힘든 경우가 있습니다. 이런 경우에 간단한 방법으로 데이터 셋의 메모리 사이즈를 줄여주는 방법을 정리한 Kernel이 있어서 개인 공부 겸 정리합니다. 데이터셋 메모리 사이즈 줄이기는 총 3단계로 이루어 집니다. [1] 단계 - Downcasting Numeric Columns python pandas는 int, float형 데이터를 불러올 때 자동으로 int 64와 float 64를 사용합니다. 하지만 대부분의 데이터는 그렇게까지 큰 메모리를 필요로 하지 않습니다. 따라서 첫번째 단계에서 우리는 int와 float형 데이터의 크기를 확인하고 그에 맞는 메모리를 사용하도록 지정합니다. in..

Data Science Introduction [1]

저는 아직 Data Scientist가 정확히 어떤 배경지식이 필요하며 필드에서 어떤 역할을 하는지에 대해 알지 못 합니다. 그래서 저는 인터넷에 돌아다니는 방대한 지식들을 바탕으로 공부하려 합니다. 오늘부터 공부하는 모든 내용들을 이곳 블로그 [ Data Science ] 카테고리에 정리할 것이고, 그로인해 스스로 동기부여를 할 수 있기를 기대하고 있습니다. 작심삼일로 끝나지 않기를... 가장 먼저 data scientist들에게 가장 핫하고 많은 고수들이 모여든다고 하는 "Kaggle"을 중심으로 시작하겠습니다. (Kaggle 가입만 해놓고 미뤄둔게 몇 달인지 모르것네) 먼저, 간단하게나마 데이터 사이언스의 개념에 대해서 살짝 정리 해보겠습니다. Wikipedia에 따르면 Data science is..