Today I Learned (TIL)/Python

[TIL] 머신러닝의 심화 - 데이터분석 프로세스(1)

신짜린 2024. 8. 16. 16:58

1. 데이터 수집

 데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요하다. 이 부분은 개발자가 직접 설계하고 저장한다.

 데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python을 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당한다.

Data Source 설명
OLTP Database OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형
Enterprise Applications 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)
Third - Party Google Analytics와 같은 외부소스에서 수집되는 데이터
Web/Log 사용자의 로그데이터

 

머신러닝심화_EDA_tips.html
0.67MB

2. 탐색적 데이터 분석 (EDA)

 데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정을 말한다.

- countplot

 범주형 자료의 각 카테고리별 빈도 수 시각화할 수 있다. x축에는 범주형 자료, y축에는 자료의 빈도수가 들어간다.

 

- barplot

 범주형 데이터의 각 카테고리에 따른 수치 데이터의 평균을 시각화할 수 있다. x축에는 범주형 자료, y축에는 연속형 자료가 들어간다.

 

- boxplot

 수치형 & 범주형 자료를 시각화할 수 있다. 데이터의 분포, 중앙값, 사분위 수, 이상치 등을 한눈에 표현할 수 있다. x축에는 수치형 or 범주형 자료, y축에는 수치형 자료가 들어간다.

 

- histogram

 수치형 자료를 연속형 분포로 나타내고 싶을 때 사용한다. 데이터가 몰려있는 구간을 파악하기 쉽다. x축은 수치형 자료, y축에는 자료의 빈도수가 들어간다.

 

- scatterplot

 두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때 사용한다. x축과 y축 모두 수치형 자료가 들어간다.

 

- pairplot

 전체 변수에 대한 시각화로 한 번에 여러 개의 변수를 동시에 시각화하고 싶을 때 사용한다. x축과 y축 모두 수치형 or 범주형 자료가 들어갈 수 있다.