https://github.com/deepseek-ai/DeepSeek-V3
소개와 방법
DeepSeek-V3는 671B 매개변수와 37B 활성화된 토큰을 가진 강력한 Mixture-of-Experts 언어 모델입니다. Multi-head Latent Attention과 DeepSeekMoE 아키텍처를 채택하고, 보조 손실 프리 로드 밸런싱 전략으로 Load-balancing 성능을 높이고 있어.
안정적인 훈련 진행
모델 훈련 중 불가역적 손실 급증이나 롤백 없이 안정적으로 진행되고 있어. 그래서 훈련 과정을 요약한 답을 한국어로 제공하는 중이야.
아래는 DeepSeek-V3에 대한 한글 요약입니다:
- 모델 개요:
DeepSeek-V3는 Mixture-of-Experts (MoE) 기반의 강력한 언어 모델로, 전체 6710억 개의 파라미터 중 토큰 당 370억 개의 파라미터가 활성화됩니다. - 아키텍처 및 효율성:
효율적인 추론과 비용 효율적인 학습을 위해, DeepSeek-V3는 이전 버전인 DeepSeek-V2에서 철저히 검증된 Multi-head Latent Attention (MLA) 및 DeepSeekMoE 아키텍처를 채택했습니다. - 새로운 전략:
- 보조 손실(auxiliary-loss) 없이 로드 밸런싱(load balancing)을 수행하는 전략을 도입했습니다.
- 더 강력한 성능을 위해 다중 토큰 예측(multi-token prediction) 학습 목표를 설정했습니다.
- 학습 데이터 및 과정:
- 14.8조 개의 다양하고 고품질 토큰을 사용하여 사전학습(pre-training)을 진행했습니다.
- 이후 감독 미세조정(Supervised Fine-Tuning)과 강화학습(Reinforcement Learning) 단계를 거쳐 모델의 성능을 극대화했습니다.
- 성능 평가:
- DeepSeek-V3는 다른 오픈 소스 모델들을 능가하는 성능을 보이며, 주요 클로즈드 소스 모델과도 유사한 수준의 성능을 달성했습니다.
- 전체 학습 과정에 필요한 H800 GPU 시간은 단 2.788M 시간에 불과하며, 학습 과정은 매우 안정적이어서 회복 불가능한 손실 스파이크나 롤백 없이 진행되었습니다.