1. 데이터 수집
데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요하다. 이 부분은 개발자가 직접 설계하고 저장한다.
데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python을 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당한다.
Data Source | 설명 |
OLTP Database | OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형 |
Enterprise Applications | 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈) |
Third - Party | Google Analytics와 같은 외부소스에서 수집되는 데이터 |
Web/Log | 사용자의 로그데이터 |
2. 탐색적 데이터 분석 (EDA)
데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정을 말한다.
- countplot
범주형 자료의 각 카테고리별 빈도 수 시각화할 수 있다. x축에는 범주형 자료, y축에는 자료의 빈도수가 들어간다.
- barplot
범주형 데이터의 각 카테고리에 따른 수치 데이터의 평균을 시각화할 수 있다. x축에는 범주형 자료, y축에는 연속형 자료가 들어간다.
- boxplot
수치형 & 범주형 자료를 시각화할 수 있다. 데이터의 분포, 중앙값, 사분위 수, 이상치 등을 한눈에 표현할 수 있다. x축에는 수치형 or 범주형 자료, y축에는 수치형 자료가 들어간다.
- histogram
수치형 자료를 연속형 분포로 나타내고 싶을 때 사용한다. 데이터가 몰려있는 구간을 파악하기 쉽다. x축은 수치형 자료, y축에는 자료의 빈도수가 들어간다.
- scatterplot
두 연속형 변수간의 관계를 시각적으로 파악하고 싶을 때 사용한다. x축과 y축 모두 수치형 자료가 들어간다.
- pairplot
전체 변수에 대한 시각화로 한 번에 여러 개의 변수를 동시에 시각화하고 싶을 때 사용한다. x축과 y축 모두 수치형 or 범주형 자료가 들어갈 수 있다.
'Today I Learned (TIL) > Python' 카테고리의 다른 글
[TIL] 머신러닝의 심화 - 데이터분석 프로세스(3) (0) | 2024.08.18 |
---|---|
[TIL] 머신러닝의 심화 - 데이터분석 프로세스(2) (0) | 2024.08.16 |
[TIL] 머신러닝의 기초 - 분류분석(로지스틱회귀) (0) | 2024.08.14 |
[TIL] 머신러닝의 기초 - 회귀분석(선형회귀 2) (0) | 2024.08.13 |
[TIL] 머신러닝의 기초 - 회귀분석(선형회귀 1) (1) | 2024.08.09 |