Today I Learned (TIL)/Python

[TIL] 머신러닝의 기초 - 회귀분석(선형회귀 2)

신짜린 2024. 8. 13. 17:52

5. 선형회귀 심화 - 범주형 데이터 활용하기

 실제 데이터는 비선형적 관계를 가지는 경우가 많다. 이를 위해 X변수를 추가 또는 변형할 수 있다.

 데이터는 크게 범주형 데이터와 수치형 데이터로 나뉜다.

 수치형 데이터는 키, 몸무게와 같이 두 개의 값이 무한한 개수로 나누어진 연속형 데이터와 주사위 눈, 나이와 같이 두 개의 값이 유한한 개수로 나누어진 이산형 데이터가 있다.

 범주형 데이터는 학점, 등급과 같이 자료의 순서 의미가 있는 순서형 데이터와 혈액형, 성별과 같이 자료의 순서 의미가 없는 명목형 데이터가 있다.

 범주형 데이터를 머신러닝 모델에 훈련시키기 위해서는 해당 데이터를 숫자로 바꿔야 한다.

머신러닝기초_tip_sex.html
0.57MB

 

6. 선형회귀 정리

- 선형회귀 장점

 1) 직관적이며 이해하기 쉽다.

 2) X-Y 관계를 정량화할 수 있다.

 3) 모델이 빠르게 학습된다(가중치 계산이 빠르다).

- 선형회귀 단점

 1) X-Y 간의 선형성 가정이 필요하다.

 2) 평가지표가 평균(mean)을 포함하기에 이상치에 민감하다.

 3) 범주형 변수를 인코딩할 때 정보 손실이 일어난다.