과정 개요
지금은 머신러닝의 시대, 인공지능의 시대입니다. 현재의 데이터를 분석함으로 끝나지 않고, 현재의 데이터로 미래의 데이터를 예측해 활용하는 시대입니다. 미래에 대한 판단은 데이터가 활용되었을 때 더 의미 있게, 저 정확하게 이루어집니다. 인간의 경험과 데이터가 결합되었을 때 미래에 대한 예측은 더욱 정확하게 됩니다. 본 과정은 파이썬 언어를 사용해 다양한 머신러닝 알고리즘을 활용하는 방법을 다룹니다.
교육대상
•
Python 기본 문법을 이미 배우신 분
•
Python 기반의 머신러닝에 대해 관심이 있는 분
학습 목표
•
Pandas 라이브러리를 사용해 데이터를 불러와 탐색하고 처리할 수 있습니다.
•
Matplotlib 라이브러리를 사용해 데이터를 시각화해 분석할 수 있습니다.
•
분류 문제와 회귀 문제를 명확히 구분해 모델링을 진행할 수 있습니다.
•
Scikit Learn 라이브러리의 다양한 머신러닝 알고리즘을 사용해 모델을 만들 수 있습니다.
•
모델 성능을 높일 수 있는 다양한 방법을 활용할 수 있습니다.
•
앙상블 알고리즘을 사용해 더욱 성능이 좋은 모델을 만들 수 있습니다.
커리큘럼
1일차
1. Pandas를 활용한 데이터 전처리
•
외부 파일 불러오기
•
탐색적 데이터 분석
•
데이터 조회와 집계
•
데이터 구조 및 값 변경
•
결측치 제거와 채우가
•
데이터 정규화와 표준화
•
가변수화(One-hot Encoding)
2일차
2. Matplotlib 데이터 시각화
•
선 그래프
•
막대 그래프
•
히스토그램
•
산점도
•
박스 그래프
3. 머신러닝 무작정 따라하기
•
머신러닝의 이해
•
회귀 문제와 분류 문제
•
Scikit Learn 소개
•
Scikit Learn 코드 구조 익히기
•
무작정 모델링 코딩하기 실습
3일차
4. 모델 성능 평가지표
•
회귀 모델 평가지표
•
분류 모델 평가지표
•
평가지표 실습
5. 기본 알고리즘 익히기
•
Linear Regression 알고리즘
•
KNN(K-Nearest Neighbor) 알고리즘
4일차
5. 기본 알고리즘 익히기(계속)
•
Decision Tree 알고리즘
•
Logistic Regression 알고리즘
•
기본 알고리즘 실습
6. K-분할 교차 검증
•
랜덤 분할의 문제 확인
•
K-분할 교차 검증 개념
•
K-분할 교차 검증 활용
•
K-분할 교차 검증 실습
5일차
7. 성능 튜닝
•
하이퍼파라미터 이해
•
Random Search로 성능 튜닝
•
Grid Search로 성능 튜닝
•
성능 튜닝 실습
8. 앙상블 알고리즘
•
앙상블에 대한 이해
•
Random Forest 알고리즘 활용
•
XGBoost 알고리즘 활용
•
앙상블 실습
9. 종합 실습