DataFlex

arxiv.org

Abstract

주요 내용 요약

  1. 파편화된 데이터 연구 통합: 기존에 각기 다른 코드베이스로 흩어져 있던 데이터 선택, 혼합, 가중치 조절 방법론을 LLaMA-Factory 기반의 하나의 프레임워크로 통합하여 재현성과 비교 연구를 용이하게 함.
  2. 세 가지 핵심 동적 학습 패러다임 지원:
  3. 높은 실용성 및 확장성: 기존 LLaMA-Factory 설정을 거의 그대로 유지하면서 간단한 설정 추가만으로 즉시 적용 가능하며, 새로운 데이터 최적화 알고리즘을 모듈 형태로 쉽게 추가할 수 있는 구조임.
  4. 대규모 학습 최적화: DeepSpeed ZeRO-3와 호환되는 분산 그래디언트 수집 메커니즘을 갖추고 있어, 수십억 개의 파라미터를 가진 대형 모델 학습에도 데이터 중심 최적화 기법을 효율적으로 적용할 수 있음.
  5. 입증된 성능 향상: 다양한 모델과 데이터셋 실험을 통해 정적 학습 방식보다 모델의 지능(MMLU 정확도)과 언어 모델링 성능(Perplexity)이 일관되게 향상됨을 증명함

1. Introduction

1. 핵심 배경

→ 등장한 패러다임:

Data-Centric Training (데이터 중심 학습)


2. 기존 접근 방식

Data Optimization 방법