1. 선형 회귀 (Linear Regressioin)
여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것이 목적이다. 예측하는 데 사용되는 변수들은 연속형일 필요 없다.
복잡한 알고리즘에 비해서는 예측력이 떨어지지만 데이터 특성이 복잡하지 않을 때는 쉽고 바른 예측이 가능해 많이 사용된다. 다른 모델과의 성능을 비교하는 베이스라인으로 사용하기도 한다.
2. 로지스틱 회귀 (Logistic Regressioin)
선형 회귀 분석과 상당히 유사하지만 다루는 문제가 다르다. 선형 회귀 분석은 연속된 변수를 예측하지만 로지스틱 회귀 문석은 Yes/No 와 같이 두 가지로 나뉘는 분류 문제를 다룬다.
다른 모델과의 비교를 목적으로 자주 활용된다.
3. K-최근접 이웃 (KNN)
각 데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델이기 때문에 선형 관계를 전제로 하지 않는다.
K개의 가장 가까운 이웃 데이터에 의해 예측된다는 의미로 다중분류 문제에 가장 간편히 적용할 수 있는 알고리즘이다.
수식에 대한 설명이 필요 없을 만큼 직관적이고 간단하지만 데이터가 커질수록 상당히 느려질 수 있고 이상치에 취약하다.
4. 나이브 베이즈 (Naive Baues)
베이즈 정리를 적용한 조건부 확률 기반의 분류 모델이다. 자연어 처리에 가장 적합한 알고리즘으로 범주 형태의 변수가 많을 때 적합하며 숫자형 변수가 많은 때는 적합하지 않다.
독립변수들이 모두 독립적이라면 충분히 경쟁력 있는 알고리즘으로 비교적 간단한 알고리즘에 속하며 속도가 빠르고 작은 훈련 셋으로도 잘 예측한다.
5. 결정 트리 (Decision Tree)
관측값과 목푯값을 연결시켜 주는 예측 모델로 수많은 트리 기반 모델의 기본 모델이 되는 중요 모델이다.
트리 기반의 모델은 선형 모델과는 전혀 다른 특징을 가지는에 선형 모델이 각 변수에 대한 기울기값들을 최적화하여 모델을 만들었다면 트리 모델은 각 변수의 특정 지점을 기준으로 데이터를 분류해 가며 예측 모델을 나눈다.
결정 트리는 데이터에 대한 가정이 없어 어디에나 적용할 수 있고 아웃라이어에 영향을 거의 받지 않는다.
6. 랜덤 포레스트 (Random Forest)
랜덤 포레스트 모델은 결정 트리의 단점인 오버피팅 문제를 완화시켜 주는 발전된 형태의 트리 모델이다. 랜덤으로 생성된 무수히 많은 트리를 이용하여 예측하기 때문에 랜점 포레스트라고 불린다.
결정 트리와 마찬가지로 아웃라이어에 거의 영향을 받지 않고 선형, 비선형 데이터에 상관없이 잘 작동하지만 학습 속도가 상대적으로 느린 편이다. 또한, 수많은 트리를 동원하기 때문에 모델에 대한 해석이 어렵다.
7. XG 부스트 (XGBoost)
각 트리를 독립적으로 만드는 알고리즘으로 순차적으로 트리를 만들어 이전 트리로부터 더 나은 트리를 만들어내는 알고리즘이다.
성능이 검증된 부스팅 모델로 가장 널리 활용되고 있다. 손실함수뿐만 아니라 모형의 복잡도까지 고려한다.
8. 라이트GBM (LightGBM)
XGBoost 이후로 나온 최신 부스팅 모델로 빠르고 높은 정확도를 보여주는 경우가 많은 알고리즘이다. 예측에 영향을 미친 변수의 중요도를 확인할 수 있다.
변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능을 보여주지만 복잡한 모델인 만큼 해석에 어렵고 하이퍼파라미터 튜닝이 까다롭다.
9. K-평균 군집화 (K Means Clustering)
비지도 학습의 대표적인 알고리즘으로 목표 변수가 없는 상태에서 데이터를 비슷한 유형끼리 묶어내는 머신러닝 기법이다. K-최근접 이웃 알고리즘과 비슷하게 거리 기반으로 작동하며 적절한 K값을 사용자가 지해야 한다.
10. 주성분 분석 (PCA)
비지도 학습에 속하여 종속 변수는 존재하지 않고 어떤 것을 예측하지도 분류하지도 않는다. 데이터의 차원을 축소하는 데 목적을 두고 있는 알고리즘으로 변수의 개수를 줄이되 그 특성은 가능한 보존해 내는 기법이다.
변수 간의 높은 상관관계 문제를 해결해 주지만 기존 변수가 아닌 새로운 변수를 사용하기 때문에 해석에 어려움이 있다.
구분 | 알고리즘 | 문제 유형 | 적합 데이터 |
지도 학습 | 선형 회귀(Linear) | 회귀 | 종속변수와 독립변수가 선형 관계에 있는 데이터 |
로지스틱 회귀(Logistic) | 분류 | 종속변수와 독립변수가 선형 관계에 있는 데이터 | |
K-최근접 이웃(KNN) | 회귀/분류 | 아웃라이어가 적은 데이터 | |
나이브 베이즈(Naive Baues) | 분류 | 독립변수의 종류가 매우 많은 경우 | |
결정 트리(Decision Tree) | 회귀/분류 | 일반적인 데이터 | |
랜덤 포레스트(Random Forest) | 회귀/분류 | 일반적인 데이터 | |
XG 부스트(XGBoost) | 회귀/분류 | 일반적인 데이터 | |
라이트GBM(LightGBM) | 회귀/분류 | 일반적인 데이터 | |
비지도 학습 | K-평균 군집화(K Means Clustering) | ||
주성분 분석(PCA) |
https://yozm.wishket.com/magazine/detail/1931/
확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT
실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현
yozm.wishket.com
'아티클스터디' 카테고리의 다른 글
[아티클 스터디] 개발자 영어 공부 방법과 팁 (7) | 2024.09.05 |
---|---|
[아티클 스터디] 조직 상황에 맞는 BI 툴 고르기 (5) | 2024.09.03 |
[아티클 스터디] 그 데이터는 잘못 해석되었습니다 (0) | 2024.08.14 |
[아티클 스터디] 일이 되게 만드는 사람, 주니어 PM 3인의 커리어 이야기 (0) | 2024.08.07 |
[아티클 스터디] 데이터 시각화는 왜 중요할까? (0) | 2024.07.19 |