<aside>
💡
</aside>
$\color{#123E59}\rule{450px}{5px}$
<aside>
💡
✨ AutoML 이란?
📌 정의
- AutoML은 데이터 전처리 → 특징 선택/추출 → 모델 선택 → 하이퍼파라미터 튜닝 → 성능 평가 과정을 자동으로 수행해주는 기술.
- 목표는 비전문가도 쉽게 ML 모델을 활용할 수 있게 하고, 전문가의 반복 작업 시간을 줄이는 것.
🛠️ 자동화되는 주요 단계
- 데이터 전처리
- 특징 엔지니어링
- 모델 탐색
- 분류/회귀/시계열 등 문제 유형에 맞는 알고리즘 선택.
- 하이퍼파라미터 최적화
- Grid Search, Bayesian Optimization 등 자동 탐색.
- 앙상블/스태킹
- 결과 해석
- 모델 성능 평가 및 중요 변수 해석(Explainable AI 포함).
🚀 장점
- 모델링 속도 ↑
- 전문 지식이 없어도 사용 가능
- 다양한 알고리즘 자동 탐색
⚠️ 단점
- 블랙박스 성격 → 내부 동작 해석 어려움
- 대규모 데이터 처리 시 계산 비용 ↑
- 특수 도메인 지식 반영은 제한적
</aside>
<aside>
💡
🔑 대표적인 AutoML 도구들
1. 구글 Cloud AutoML (Vertex AI 포함)
- 구글 클라우드 플랫폼(GCP)에서 제공.
- 이미지 분류, NLP(텍스트 감정 분석, 엔티티 추출), 테이블 데이터 예측 지원.
- 장점: 클라우드 인프라와 연동, 대규모 데이터 처리 가능.
- 단점: 클라우드 의존성, 비용 발생.
- 오픈소스 + 엔터프라이즈 솔루션 제공.
- 분류, 회귀, 시계열, 앙상블까지 지원.
- 장점: 빠른 모델 탐색, 다양한 알고리즘 자동 튜닝.
- 단점: 시각화나 UI는 다소 부족(주로 코드 기반).
3. Auto-sklearn
- Python 오픈소스 라이브러리.
- Scikit-learn 기반 알고리즘을 자동 탐색 및 하이퍼파라미터 최적화.
- 장점: 손쉬운 적용, 오픈소스라 무료.
- 단점: 대규모 데이터에는 상대적으로 느림.
4. TPOT (Tree-based Pipeline Optimization Tool)
- 유전 알고리즘 기반 AutoML.
- sklearn 파이프라인 자동 탐색, 최적 모델 제안.
- 장점: 파이프라인까지 자동 설계.
- 단점: 실행 속도 느림.
5. Microsoft Azure AutoML
- Azure 클라우드 환경에서 제공.
- 분류, 회귀, 시계열, NLP, 컴퓨터 비전 지원.
- 장점: Azure 생태계와 통합, GUI 중심이라 사용 쉬움.
- 단점: 클라우드 의존성, 비용 고려 필요.
6. AutoKeras
- Keras/TensorFlow 기반 AutoML.
- 딥러닝 모델 자동 설계 및 탐색.
- 장점: 이미지, 텍스트, 구조화 데이터까지 폭넓게 지원.
- 단점: 아직은 실험적 기능이 많음.
🚀 간단 정리
- 기업 클라우드 중심: Google Cloud AutoML, Azure AutoML
- 오픈소스 중심: H2O.ai, Auto-sklearn, TPOT, AutoKeras
- 딥러닝 중심: AutoKeras, Google AutoML Vision/NLP
- 클래식 ML 중심: Auto-sklearn, TPOT, H2O.ai
</aside>
🧪 실험
우리는 아래 조건을 만족하는 AutoML을 실험한다.
- 오픈소스로 사용할 수 있어, DACON대회 사용에 문제가 없다.
- 클라우드 기반 사용이 아니라 간단하게 성능을 시험할 수 있는 모델을 사용한다.
🔗 참고자료
https://mz-moonzoo.tistory.com/5
Azure Machine Learning 설명서