AI

28 posts

18min read·2026년 3월 10일

[머신러닝 실전 6편] 전체 파이프라인 완성 — CSV 한 장에서 예측 모델까지

1편 EDA부터 5편 튜닝까지, 코드가 흩어져 있었습니다. 전처리 따로, 모델 따로, 튜닝 따로 — 실수하기 딱 좋은 구조였습니다. sklearn Pipeline과 ColumnTransformer로 전부 하나로 묶었습니다. 전처리부터 튜닝까지 fit 한 번이면 끝나는, 재현 가능한 워크플로우를 완성합니다.

#Pipeline#ColumnTransformer#sklearn

17min read·2026년 3월 10일

[머신러닝 실전 5편] 같은 모델인데 셋팅만 바꿨더니 — 하이퍼파라미터 튜닝

4편에서 Gradient Boosting이 종합 1위였습니다. 근데 기본 설정 그대로 쓴 거라 '이게 최선인가?' 싶었습니다. 하이퍼파라미터를 바꿔봤더니 — 사실 기본 설정이 이미 꽤 좋았습니다. GridSearchCV, RandomizedSearchCV로 실험한 과정과, '튜닝이 항상 극적 개선을 주지는 않는다'는 현실적인 교훈을 정리했습니다.

#하이퍼파라미터튜닝#GridSearch#RandomSearch

18min read·2026년 3월 10일

[머신러닝 실전 4편] 이탈 예측, 어떤 모델이 이기나 — 5개 모델 실전 비교

전처리를 끝내고 나니 '어떤 모델을 써야 하지?'가 막막했습니다. 로지스틱 회귀? 랜덤포레스트? 그래디언트 부스팅? 실전에서는 하나만 골라서 올인하는 게 아니라, 여러 개를 빠르게 돌려보고 비교합니다. DummyClassifier로 베이스라인을 세우고, 5개 모델을 교차검증으로 공정 비교한 결과를 정리했습니다.

#모델선택#교차검증#베이스라인

17min read·2026년 3월 9일

[머신러닝 실전 3편] "남자/여자"를 모델은 못 읽는다 — 피처 엔지니어링 실전

2편에서 결측치와 이상치를 처리하고 바로 모델에 넣었더니 에러가 났습니다. gender='Male'을 모델이 이해하지 못한 겁니다. 범주형을 숫자로 바꾸는 인코딩, 스케일을 맞추는 스케일링, 새 변수를 만드는 파생변수까지 — 모델이 먹을 수 있는 형태로 데이터를 가공하는 과정을 정리했습니다.

#피처엔지니어링#인코딩#스케일링

16min read·2026년 3월 9일

[머신러닝 실전 2편] 빈 칸과 튀는 값 — 결측치·이상치 실전 처리

1편에서 EDA를 하다가 TotalCharges에 빈 칸 11개를 발견했습니다. 그냥 삭제할까, 0으로 채울까, 중앙값으로 채울까 — 선택에 따라 모델 결과가 달라졌습니다. 결측치를 직접 파헤쳐보고, 이상치까지 IQR 방법으로 확인하면서 배운 실전 전처리 과정을 공유합니다.

#결측치#이상치#데이터전처리

18min read·2026년 3월 9일

[머신러닝 실전 1편] 통신사 고객 7천 명, 누가 떠날까 — EDA로 단서 찾기

처음 데이터를 받았을 때 바로 모델부터 돌렸습니다. 정확도 79%에 좋아했는데.. 자세히 보니 이탈 고객을 거의 못 잡고 있었습니다. 원인을 찾다 보니 데이터 자체에 문제가 있었습니다. 그때 깨달았습니다 — 모델 전에 데이터를 먼저 봐야 한다는 것을. 제가 했던 실수를 여러분은 안 하시도록, Telco Churn 데이터 7,043명을 직접 뜯어보면서 EDA가 왜 필수인지 확인합니다.

#EDA#탐색적데이터분석#데이터시각화

18min read·2026년 3월 8일

[머신러닝 중급 6편] 주성분 분석(PCA) — 100개 특성을 2개로 줄여도 되는 이유

처음 PCA를 접했을 때 '특성을 줄이면 정보가 날아가는 거 아닌가?' 싶었습니다. 근데 iris 데이터 4개 특성을 2개로 줄여서 산점도를 그려보니까, 클래스 구분이 여전히 선명하더라고요. 분산 설명 비율, Scree Plot, 차원 축소 전후 비교까지 직접 코드로 확인합니다.

#PCA#주성분분석#차원축소

18min read·2026년 3월 8일

[머신러닝 중급 5편] 이상치 탐지 — 1000명 중 수상한 1명을 찾아내는 법

이상치 탐지는 처음 접했을 때 '그냥 평균에서 멀면 이상치 아닌가?' 싶었습니다. 근데 실제 데이터에서는 그렇게 단순하지 않더라고요. 레이블도 없고, 정상과 비정상의 경계도 애매하고.. Isolation Forest를 직접 돌려보고 나서야 왜 이 방법이 인기 있는지 이해했습니다.

#이상치탐지#AnomalyDetection#IsolationForest

20min read·2026년 3월 8일

[머신러닝 중급 4편] 그래디언트 부스팅 — 약한 모델들이 팀을 이루는 방법

랜덤포레스트랑 뭐가 다른 건지 처음엔 구분이 안 됐습니다. 둘 다 트리를 여러 개 쓰는 건 같은데.. 직접 코드를 돌려보고 나서야 '순차적으로 오차를 보정한다'는 게 무슨 뜻인지 이해했습니다. 그래디언트 부스팅의 원리부터 XGBoost, 특성 중요도 해석까지 정리합니다.

#그래디언트부스팅#XGBoost#앙상블

18min read·2026년 3월 8일

[머신러닝 중급 3편] 정규화 기법 — 모델에 '벌금'을 매기는 이유

1편에서 과적합 해결책 중 하나로 '정규화'를 잠깐 언급했었는데, 솔직히 그때는 이름만 들었지 뭔지 감이 안 왔습니다. L1, L2가 뭐고 왜 가중치에 벌금을 매기는 건지.. Ridge, Lasso 코드를 직접 돌려보고 alpha 값을 이리저리 바꿔본 뒤에야 '아, 이래서 정규화가 필요하구나' 이해했습니다.

#정규화#Lasso#Ridge

18min read·2026년 3월 7일

[머신러닝 중급 2편] 서포트 벡터 머신(SVM) — 두 그룹 사이의 가장 넓은 길을 찾는 알고리즘

SVM을 처음 접했을 때 '경계선을 긋는다'는 설명만 봤는데, 그러면 로지스틱 회귀랑 뭐가 다른 건지 감이 안 왔습니다. 핵심은 경계선이 아니라 '도로 폭'이더라고요. 마진 최대화, 서포트 벡터, 커널 트릭까지 — 직접 그래프를 그려보면서 정리합니다.

#SVM#서포트벡터머신#커널트릭

20min read·2026년 3월 7일

[머신러닝 중급 1편] 과적합과 과소적합 — 모델이 시험 문제만 외우면 생기는 일

처음 머신러닝을 배울 때 '과적합'이 뭔 소린지 감이 안 왔습니다. 잘 맞추면 좋은 거 아닌가? 근데, 직접 코드를 돌려보고 나서야 이해했던 경험이 있습니다. degree 하나 바꿨을 뿐인데 그래프가 미친 듯이 요동치는 걸 보고.. 과적합·과소적합의 차이, 편향-분산 트레이드오프, 학습 곡선까지 직접 실행하면서 정리합니다.

#과적합#과소적합#편향분산트레이드오프