DataFlex
arxiv.org
Abstract
주요 내용 요약
- 파편화된 데이터 연구 통합: 기존에 각기 다른 코드베이스로 흩어져 있던 데이터 선택, 혼합, 가중치 조절 방법론을 LLaMA-Factory 기반의 하나의 프레임워크로 통합하여 재현성과 비교 연구를 용이하게 함.
- 세 가지 핵심 동적 학습 패러다임 지원:
- 동적 샘플 선택 (Select Trainer): 학습에 가장 유용한 데이터 부분집합을 동적으로 선택.
- 도메인 혼합 조정 (Mix Trainer): 웹, 책, 코드 등 서로 다른 데이터 소스의 비율을 최적화.
- 샘플 가중치 재설정 (Weight Trainer): 각 샘플이 모델 학습(그래디언트 업데이트)에 기여하는 강도를 동적으로 조절.
- 높은 실용성 및 확장성: 기존 LLaMA-Factory 설정을 거의 그대로 유지하면서 간단한 설정 추가만으로 즉시 적용 가능하며, 새로운 데이터 최적화 알고리즘을 모듈 형태로 쉽게 추가할 수 있는 구조임.
- 대규모 학습 최적화: DeepSpeed ZeRO-3와 호환되는 분산 그래디언트 수집 메커니즘을 갖추고 있어, 수십억 개의 파라미터를 가진 대형 모델 학습에도 데이터 중심 최적화 기법을 효율적으로 적용할 수 있음.
- 입증된 성능 향상: 다양한 모델과 데이터셋 실험을 통해 정적 학습 방식보다 모델의 지능(MMLU 정확도)과 언어 모델링 성능(Perplexity)이 일관되게 향상됨을 증명함
1. Introduction
1. 핵심 배경
- LLM 성능은 모델 구조뿐 아니라데이터의 품질, 구성, 규모에 크게 의존함
- 데이터는 더 이상 고정된 입력이 아니라
→ 성능을 결정하는 핵심 요소
→ 등장한 패러다임:
Data-Centric Training (데이터 중심 학습)
2. 기존 접근 방식
Data Optimization 방법