지금은 머신러닝의 시대, 인공지능의 시대입니다. 현재의 데이터를 분석함으로 끝나지 않고, 현재의 데이터로 미래의 데이터를 예측해 활용하는 시대입니다. 미래에 대한 판단은 데이터가 활용되었을 때 더 의미 있게, 저 정확하게 이루어집니다. 인간의 경험과 데이터가 결합되었을 때 미래에 대한 예측은 더욱 정확하게 됩니다. 본 과정은 파이썬 언어를 사용해 다양한 머신러닝 알고리즘을 활용하는 방법을 다룹니다.
학습 목표
•
Pandas 라이브러리를 사용해 데이터를 불러와 탐색하고 처리할 수 있습니다.
•
Matplotlib 라이브러리를 사용해 데이터를 시각화해 분석할 수 있습니다.
•
분류 문제와 회귀 문제를 명확히 구분해 모델링을 진행할 수 있습니다.
•
Scikit Learn 라이브러리의 다양한 머신러닝 알고리즘을 사용해 모델을 만들 수 있습니다.
•
모델 성능을 높일 수 있는 다양한 방법을 활용할 수 있습니다.
•
앙상블 알고리즘을 사용해 더욱 성능이 좋은 모델을 만들 수 있습니다.
다루는 내용
데이터 전처리 리뷰
데이터 분석의 기본이 되는 데이터 전처리 과정을 복습합니다. 데이터 정제, 결측값 처리, 데이터 스케일링, 인코딩 등 데이터 품질을 높이기 위한 다양한 기법을 학습합니다.
Matplotlib 데이터 시각화 리뷰
데이터 시각화의 중요성을 이해하고, Matplotlib을 사용하여 데이터를 시각적으로 표현하는 방법을 복습합니다. 다양한 그래프와 차트를 생성하여 데이터의 분포와 패턴을 파악하는 기술을 익힙니다.
머신러닝 무작정 따라하기
머신러닝의 기본 개념과 흐름을 이해하기 위해 실습 위주의 학습을 진행합니다. 간단한 머신러닝 모델을 구현하고, 데이터를 학습시켜 예측 결과를 도출하는 과정을 체험합니다.
모델 성능 평가지표
머신러닝 모델의 성능을 평가하는 다양한 지표를 학습합니다. 정확도, 정밀도, 재현율, F1 스코어, ROC-AUC 등 성능 평가지표를 이해하고, 각 지표의 의미와 활용 방법을 익힙니다.
기본 알고리즘 익히기
머신러닝의 주요 알고리즘을 학습합니다. 선형 회귀, 로지스틱 회귀, 결정 트리, K-최근접 이웃(K-NN), 서포트 벡터 머신(SVM) 등 기본 알고리즘의 원리와 구현 방법을 익힙니다.
K-분할 교차 검증
모델의 성능을 안정적으로 평가하기 위한 K-분할 교차 검증 기법을 학습합니다. 데이터를 여러 부분으로 나누어 모델을 학습하고 평가하는 방법을 통해 과적합(overfitting)을 방지하고 모델의 일반화 성능을 높입니다.
성능 튜닝
머신러닝 모델의 성능을 최적화하기 위한 하이퍼파라미터 튜닝 기법을 학습합니다. Grid Search, Random Search, Bayesian Optimization 등의 방법을 사용하여 모델의 성능을 개선하는 방법을 익힙니다.
앙상블 알고리즘
여러 개의 모델을 결합하여 더 강력한 성능을 발휘하는 앙상블 기법을 학습합니다. 배깅(Bagging), 부스팅(Boosting), 랜덤 포레스트(Random Forest), 그래디언트 부스팅(Gradient Boosting) 등의 알고리즘을 이해하고 활용합니다.
종합 실습
지금까지 배운 모든 내용을 종합하여 실제 데이터 분석 및 머신러닝 프로젝트를 수행합니다. 데이터 전처리, 모델 구축, 성능 평가, 하이퍼파라미터 튜닝, 결과 시각화 등을 통해 종합적인 실습을 진행하며 실전 감각을 키웁니다.