-
DeepSeek Technical Report: MoE ArchitectureKnowledge Base/Reports 2026. 2. 26. 05:18

Author: Claude Code(Opus 4.6), mangowhoiscloud
Task: DeepSeekMoE → V2 → V3 → R1 아키텍처 진화 과정의 기술 분석
Date: 2026-02-26
출처: arXiv 논문, DeepSeek 공식 기술 보고서, 기술 분석 블로그1. DeepSeekMoE (2024.01)
논문: "DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models" (arXiv:2401.06066)
1.1 핵심 요소
(1) Fine-Grained Expert Segmentation (세분화 전문가 분할)
기존 MoE: N개 전문가에서 Top-K 활성화
DeepSeekMoE: mN개의 더 작은 전문가로 분할하고 mK개를 활성화- 각 전문가의 FFN 중간 차원을 1/m로 축소
- 활성화되는 전문가 수를 m배로 증가시켜 연산량 일정 유지
- 조합 폭발 효과: m=4, N=16 기준
- 기존 Top-2: C(16,2) = 120 조합
- Fine-grained Top-8 from 64: C(64,8) = 4,426,165,368 조합
MoE 출력 수식 (Fine-grained):
hₜˡ = Σ(i=1→mN) (gᵢ,ₜ · FFNᵢ(uₜˡ)) + uₜˡ(2) Shared Expert Isolation (공유 전문가 분리)
- Kₛ개의 전문가를 "공유 전문가"로 분리 → 모든 토큰에 대해 항상 활성화
- 공통 지식(common knowledge)을 흡수하여 라우팅 전문가의 중복성 제거
- 라우팅 전문가는 (mN - Kₛ)개 중에서 (mK - Kₛ)개를 활성화
DeepSeekMoE 수식:
hₜˡ = Σ(i=1→Kₛ) FFNᵢ(uₜˡ) + Σ(i=Kₛ+1→mN) (gᵢ,ₜ · FFNᵢ(uₜˡ)) + uₜˡ1.2 로드 밸런싱
Expert-Level Balance Loss:
L_ExpBal = α₁ × Σ(i=1→N') fᵢ × Pᵢ- fᵢ: 전문가 i를 선택한 토큰 비율
- Pᵢ: 평균 라우팅 확률
Device-Level Balance Loss:
L_DevBal = α₂ × Σ(i=1→D) fᵢ' × Pᵢ'1.3 모델 스케일별 구성
총 파라미터 2.0B 16.4B 145B 활성 파라미터 0.3B 2.8B ~28B 공유 전문가 1 2 - 라우팅 전문가 63 64 - 활성 라우팅 전문가 7 6 - 전문가 크기(FFN 대비) 0.25× - - 학습 토큰 100B 2T 245B (진행중) Hidden dim - 2048 - Layers - 28 - 1.4 벤치마크 결과
DeepSeekMoE 2B vs 기존 MoE (2B scale):
Pile Loss 1.808 1.867 1.881 HellaSwag 54.8% 50.5% 49.1% HumanEval 4.9 3.7 2.4 TriviaQA 16.6 10.2 8.9 DeepSeekMoE 16B vs Dense 모델:
- DeepSeek 7B 대비 40.5% 연산량으로 동등/우월한 성능
- LLaMA2 7B 대비 39.6% 연산량, 245% 총 파라미터
- HumanEval: 26.8 vs 14.6
- MBPP: 39.2% vs 21.8%
- FLOPs/4K tokens: 74.4T (vs DeepSeek 7B의 183.5T)
핵심 하이퍼파라미터:
- 2B: lr=1.08×10^-3, batch=2K, balance factor=0.01
- 16B: lr=4.2×10^-4, batch=4.5K, balance factor=0.001
- 최적 공유:라우팅 비율 = 1:3
1.5 Insight: "많은 작은 전문가"라는 패러다임 전환
DeepSeekMoE의 Fine-Grained Expert Segmentation은 단순한 엔지니어링 트릭이 아니라 MoE 패러다임 자체를 재정의한 개념적 돌파구였습니다.
이전까지 MoE는 "소수의 큰 전문가가 각자 넓은 도메인을 담당한다"는 구조였고, 이는 전문가 간 지식 중복이 심하고 조합의 유연성이 극히 제한되었습니다. DeepSeekMoE는 이 전제를 뒤집어 "다수의 작은 전문가가 조합을 통해 무한에 가까운 표현력을 만든다."에 집중합니다.
120 vs 44억이라는 조합 수 차이는 단순한 숫자가 아닙니다. 인간 언어와 추론은 극도로 다양한 패턴의 조합으로 이루어져 있습니다. 코드 작성, 수학 증명, 창작 글쓰기, 논리적 대화 등은 각각 전혀 다른 능력의 조합을 필요로 하며, 44억 가지의 전문가 조합은 이 다양성을 충분히 커버할 수 있는 표현 공간을 제공합니다. Shared Expert Isolation은 여기에 "모든 언어 작업에 공통으로 필요한 기초 지식"을 별도로 보장함으로써, 라우팅 전문가들이 진정한 전문 영역에만 집중하게 만들었습니다.
이 설계 철학은 이후 V2, V3를 거쳐 R1까지 모든 DeepSeek 모델의 근간이 되었을 뿐 아니라, Mixtral, Qwen-MoE, Kimi K2 등 후속 MoE 모델들의 설계 원칙에도 직접적인 영향을 미쳤습니다.2. DeepSeek-V2 (2024.05) — MLA + DeepSeekMoE 통합
논문: "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model" (arXiv:2405.04434)
2.1 모델 규모
총 파라미터 236B 활성 파라미터/토큰 21B Transformer layers 60 Hidden dimension 5,120 컨텍스트 길이 128K tokens 어휘 크기 100K (BBPE) 2.2 Multi-Head Latent Attention (MLA) — 핵심 혁신
MLA 개요
- 기존 MHA의 Key-Value를 저차원 잠재 벡터(latent vector)로 압축
- 추론 시 KV 캐시를 93.3% 감소 (DeepSeek 67B 대비)
- MHA 수준 성능 유지하면서 GQA 2.25 그룹 수준의 캐시 효율
MLA 핵심 차원
어텐션 헤드 수 nₕ 128 헤드 당 차원 dₕ 128 KV 압축 차원 d_c 512 Query 압축 차원 d_c' 1,536 디커플드 RoPE 차원 dₕᴿ 64 (= dₕ/2) MLA 수식
KV 압축 (Down-projection):
cₜᴷⱽ = Wᴰᴷⱽ · hₜ (d_model → d_c = 512)KV 복원 (Up-projection):
kₜᶜ = Wᵁᴷ · cₜᴷⱽ (d_c → nₕ × dₕ) vₜᶜ = Wᵁⱽ · cₜᴷⱽ (d_c → nₕ × dₕ)디커플드 RoPE 처리:
kₜᴿ = RoPE(Wᴷᴿ · hₜ) (d_model → dₕᴿ)Query 압축:
cₜᵠ = Wᴰᵠ · hₜ (d_model → d_c' = 1536) qₜ = Wᵁᵠ · cₜᵠ (d_c' → nₕ × dₕ)어텐션 계산:
oₜ,ᵢ = Σⱼ Softmax(qₜ,ᵢᵀ · kⱼ,ᵢ / √(dₕ + dₕᴿ)) · vⱼ,ᵢᶜKV 캐시 크기 비교
표준 MHA 2 × nₕ × dₕ = 32,768 풀 KV 저장 MLA d_c + dₕᴿ = 576 93.3% 감소 GQA (2 groups) ~2 × 2 × dₕ = 512 유사 수준 추론 최적화 — Absorption Trick:
- 추론 시 decompression 행렬을 후속 행렬에 흡수(absorb)
- 중간 비선형성 없으므로 행렬 합성 가능 → matmul 오버헤드 제거
실제 KV 캐시 메모리
- 표준 MHA: 213.5 GB
- MLA: 7.6 GB → 28× 감소
2.3 DeepSeekMoE 구성 (V2)
라우팅 전문가 수 160/layer 공유 전문가 수 2/layer 활성 라우팅 전문가 6/token (Kᵣ = 6) 전문가 중간 hidden dim 1,536 MoE 적용 범위 첫 번째 레이어 제외 전체 Device-Limited Routing: M=3 (최대 3개 디바이스로 토큰 분산)
- Expert Parallelism: D=8 디바이스
밸런스 로스 계수:
- Expert-level: α₁ = 0.003
- Device-level: α₂ = 0.05
- Communication: α₃ = 0.02
게이트 함수: Softmax 기반
gᵢ,ₜ = Softmaxᵢ(uₜᵀ · eᵢ) → Top-K 선택2.4 학습 구성
사전학습 데이터 8.1T tokens 중국어:영어 비율 중국어 12% 더 많음 최대 시퀀스 길이(학습) 4K tokens 배치 크기 2,304 → 9,216 (처음 225B 토큰) Optimizer AdamW (β₁=0.9, β₂=0.95, wd=0.1) 학습률 max 2.4×10^-4, warmup 2K steps 학습률 감쇠 Step-decay ×0.316 at 60%, 90% 병렬화 16-way PP + 8-way EP + ZeRO-1 DP 학습 비용: DeepSeek 67B 대비 42.5% 절감
- V2: 172.8K GPU hours/trillion tokens
- 67B: 300.6K GPU hours/trillion tokens
2.5 벤치마크 결과
영어 벤치마크:
MMLU (5-shot) 78.5% BBH (3-shot) 78.9% DROP (3-shot) 80.1% ARC-Easy 97.6% ARC-Challenge 92.4% HumanEval (0-shot) 48.8% MBPP (3-shot) 66.6% GSM8K (8-shot) 79.2% MATH (4-shot) 43.6% 중국어 벤치마크: C-Eval 81.7%, CMMLU 84.0%
추론 성능:- 생성 처리량: 50K+ tokens/sec
- 프롬프트 처리량: 100K+ tokens/sec
- DeepSeek 67B 대비 5.76× 최대 생성 처리량
Chat 평가 (Post-RL):
- AlpacaEval 2.0: 38.9% LC win rate
- MT-Bench: 8.97
- AlignBench: 7.91
2.6 Long Context 확장 (YaRN)
Scale (s) 40 Alpha (α) 1 Beta (β) 32 목표 컨텍스트 160K (128K 평가) Fine-tuning 1,000 steps @ 32K seq len Length scaling √t = 0.0707·ln(s) + 1 2.7 SFT & RL
- SFT 데이터: 1.5M 인스턴스 (1.2M helpfulness + 0.3M safety)
- SFT 학습: 2 epochs, lr=5×10^-6
- RL: GRPO (Group Relative Policy Optimization) — 별도 critic 모델 불필요
2.8 Insight: MoE + MLA = 실용적 대규모 배포의 완성
DeepSeekMoE가 연산 효율을 해결했다면, V2의 MLA는 메모리 병목이라는 숨겨진 벽을 해결했습니다. MoE의 의의는 "전체 파라미터 대비 활성 파라미터를 극적으로 줄여 연산량을 절감하는 것"이지만, 추론 단계에서는 연산량 못지않게 KV 캐시 메모리가 치명적 병목이 됩니다. 특히 긴 컨텍스트를 처리해야 하는 실용적 시나리오에서, 표준 MHA의 KV 캐시(213.5 GB)는 MoE의 연산 절감을 무색하게 만들 수 있었습니다.
MLA는 이 문제를 KV를 512차원 잠재 벡터로 압축하여 7.6 GB로 줄이는 방식으로(28배 감소) 정면 돌파했다. 핵심은 Absorption Trick으로, 추론 시 decompression 행렬을 후속 행렬에 흡수시켜 성능 저하 없이 캐시를 압축한다는 점이다. GQA 같은 기존 접근법이 품질을 희생하며 캐시를 줄였다면, MLA는 MHA 수준의 성능을 유지하면서 GQA보다 더 효율적인 캐시를 달성했습니다.
MoE가 학습과 추론의 연산량을 줄이고, MLA가 추론의 메모리를 줄입니다. 이 두 혁신의 결합이야말로 수백 B 파라미터 모델을 실제 서비스에 배포할 수 있게 만든 결정적 조합입니다. V2 이후 MLA는 사실상 DeepSeek 아키텍처의 표준이 되었고, V3와 R1은 MLA를 수정 없이 그대로 계승했습니다.3. DeepSeek-V3 (2024.12)
논문: "DeepSeek-V3 Technical Report" (arXiv:2412.19437)
3.1 모델 규모
총 파라미터 671B 활성 파라미터/토큰 37B Transformer layers 61 Hidden dimension 7,168 어텐션 헤드 수 128 헤드 당 차원 128 컨텍스트 길이 128K tokens 어휘 크기 128K (Byte-level BPE) 3.2 MoE 아키텍처 (V3)
라우팅 전문가 수 160 256 +60% 공유 전문가 수 2 1 -50% 활성 라우팅 전문가 6 8 +33% 전문가 중간 dim 1,536 2,048 +33% 게이트 함수 Softmax Sigmoid 변경 로드 밸런싱 Aux Loss Aux-Loss-Free 혁신 노드 제한 M=3 devices M=4 nodes 변경 3.3 Auxiliary-Loss-Free Load Balancing
기존 문제: 보조 손실(auxiliary loss)이 모델 성능을 저하시킴
V3 접근법: Bias Term 기반 동적 밸런싱g'ᵢ,ₜ = { sᵢ,ₜ if (sᵢ,ₜ + bᵢ) ∈ TopK({sⱼ,ₜ + bⱼ}, Kᵣ) { 0 otherwise- Affinity score:
sᵢ,ₜ = Sigmoid(uₜᵀ · eᵢ)(V3에서 Softmax→Sigmoid 변경) - Bias term (bᵢ): 각 전문가에 할당된 편향값
- 핵심 원리: bias는 라우팅 결정에만 사용, 게이팅 값은 원래 affinity score에서 계산
Bias 업데이트 규칙:
if expertᵢ is overloaded: bᵢ ← bᵢ - γ if expertᵢ is underloaded: bᵢ ← bᵢ + γ- γ (bias update speed) = 0.001 (처음 14.3T 토큰)
- γ = 0.0 (이후, 안정화 후)
보완적 Sequence-wise Auxiliary Loss:
- 시퀀스 내 불균형 방지를 위한 매우 작은 가중치의 보조 손실
- 가중치: α = 0.0001
3.4 Multi-Token Prediction (MTP)
설계:
- 예측 깊이: D = 1 (현재 토큰 + 1개 미래 토큰)
- 순차적 예측 방식 (병렬이 아닌) → 완전한 인과 관계 체인 유지
MTP 모듈 구성:
- 공유 임베딩 레이어
- Transformer 블록 TRMₖ
- 프로젝션 행렬 Mₖ ∈ R^(d×2d)
- 공유 출력 헤드
학습 손실:
L_MTP = (λ/D) × Σₖ L_MTPᵏ L_MTPᵏ = CrossEntropy(P₂₊ₖ:T₊₁ᵏ, t₂₊ₖ:T₊₁)MTP 가중치 스케줄:
- λ = 0.3 (처음 10T 토큰)
- λ = 0.1 (이후 4.8T 토큰)
추론 시 활용:
- MTP 모듈은 추론 시 제거 가능 (선택적)
- Speculative decoding 시 사용하면 1.8× TPS 향상
- 두 번째 토큰 예측 수락률: 85-90%
3.5 MLA 구성 (V3)
V2와 동일한 MLA 아키텍처 유지:
KV 압축 차원 (d_c) 512 Query 압축 차원 (d_c') 1,536 디커플드 RoPE 차원 (dₕᴿ) 64 어텐션 헤드 수 128 헤드 당 차원 128 3.6 FP8 Mixed Precision Training
"최초로 초대규모 모델(671B)에서 FP8 학습을 검증한 프로덕션 모델"
FP8 적용 범위:- Linear forward GEMM | FP8 (E4M3)
- Activation backward GEMM | FP8 (E4M3)
- Weight backward GEMM | FP8 (E4M3)
- Embedding 모듈 | BF16
- Output head | BF16
- MoE 게이팅 | BF16
- Normalization | FP32
- Attention operators | BF16
- Master weights | FP32
- Weight gradients | BF16
- Optimizer states | FP32
양자화 전략:- Activations: 1×128 tile-wise grouping
- Weights: 128×128 block-wise grouping
- 포맷: E4M3 (4-bit exponent, 3-bit mantissa) 통일 사용
- 누적 정밀도: FP32, promotion interval Nᶜ = 128 elements
저정밀도 저장:
- Optimizer moments (AdamW 1st/2nd): BF16
- Linear backward 캐시 activations: FP8
- MoE dispatch 전 activations: FP8
- All-to-all dispatch 통신: FP8
- All-to-all combine 통신: BF16
3.7 DualPipe, 파이프라인 병렬 최적화
구성: 16-way Pipeline Parallelism (PP)
핵심 혁신: forward-backward 청크 쌍 내에서 연산과 통신을 오버랩
스케줄링:- 양방향 파이프라인: micro-batch를 양 끝에서 공급
- 컴포넌트: attention → all-to-all dispatch → MLP → all-to-all combine
- Backward: "backward for input"과 "backward for weights"로 분리
기존 대비 성능:
- ZB1P 대비 버블:
(PP-1)·(F+B-2W)→(PP/2-1)·(F&B+B-3W) - Activation 메모리:
(PP+1)/PP배 (1F1B의 PP배 대비) - 파라미터 복사: 2× (대규모 EP에서 허용 가능)
3.8 Expert Parallelism & 통신 최적화
배치:
- 64-way Expert Parallelism (8 노드, 노드당 8 GPU)
- 라우팅 전문가: 64 GPU에 균등 분산
- Node-limited routing: M=4 (각 토큰 최대 4개 노드로 전송)
Cross-Node All-to-All 통신:
IB(InfiniBand): 50 GB/s (노드 간) NVLink: 160 GB/s (노드 내)통신 흐름:
- Dispatch: IB sending → IB-to-NVLink forwarding → NVLink receiving
- Combine: NVLink sending → forwarding + accumulation → IB receiving
- 통신 담당: 20 SMs (warp specialization 적용)
Tensor Parallelism 불사용: 메모리 최적화로 TP 없이도 충분
3.9 학습 하이퍼파라미터
Optimizer AdamW (β₁ = 0.9, β₂ = 0.95, wd = 0.1) Gradient clipping 1.0 학습 하드웨어 2,048 × NVIDIA H800 GPU 사전학습 데이터 14.8T tokens 학습률 스케줄:
1) Linear warmup: 0 → 2.2×10^-4 over 2K steps 2) Constant: 2.2×10^-4 until 10T tokens 3) Cosine decay: 2.2×10^-4 → 2.2×10^-5 over 4.3T tokens 4) Final (500B tokens): 2.2×10^-5 for 333B, then 7.3×10^-6배치 크기 스케줄:
Gradual increase: 3,072 → 15,360 over first 469B tokens Constant: 15,360 thereafter시퀀스 길이:
- Pre-training: 4K
- Phase 1 확장: 32K (batch 1920, 1000 steps)
- Phase 2 확장: 128K (batch 480, 1000 steps)
- 확장 단계 학습률: 7.3×10^-6
3.10 학습 비용 — $5.576M
Pre-training 2,664K $5.328M Context extension 119K $0.238M Post-training 5K $0.01M 합계 2,788K $5.576M - 1T 토큰 학습: 180K H800 GPU hours (2,048 GPU 클러스터에서 3.7일)
- 전체 학습 과정에서 복구 불가능한 손실 스파이크 0건, 롤백 0회
비용 비교 (추정):
- GPT-4: ~$100M+ (추정)
- LLaMA 3.1 405B: ~$30M+ (추정)
- DeepSeek-V3: $5.576M → 비용 효율 10-20×
3.11 추론 배치
Prefilling (최소 단위: 4 노드, 32 GPU):
- Attention: TP4 + Sequence Parallelism + DP8
- MoE: EP32, 32개 중복 전문가
- 온라인 통계 기반 전문가 복제로 로드 밸런싱
Decoding (최소 단위: 40 노드, 320 GPU):
- Attention: TP4 + Sequence Parallelism + DP80
- MoE: EP320, GPU당 1 전문가, 64 GPU는 중복/공유 전문가
- InfiniBand point-to-point 전송 + IBGDA 기술
3.12 벤치마크 결과
Base Model 비교
Pile-test (BPB) 0.606 0.638 0.542 0.548 BBH (EM) 78.8 79.8 82.9 87.5 MMLU (Acc.) 78.4 85.0 84.4 87.1 MMLU-Pro (Acc.) 51.4 58.3 52.8 64.4 DROP (F1) 80.4 80.6 86.0 89.0 HumanEval (Pass@1) 43.3 53.0 54.9 65.2 MATH (EM) 43.4 54.4 49.0 61.6 Chat Model 비교 (>67B)
MMLU (EM) 80.6 85.3 88.6 88.3 87.2 88.5 DROP (3-shot F1) 87.8 76.7 88.7 88.3 83.7 91.6 HumanEval-Mul 77.4 77.3 77.2 81.7 80.5 82.6 Codeforces (%ile) 35.6 24.8 25.3 20.3 23.6 51.6 MATH-500 (EM) 74.7 80.0 73.8 78.3 74.6 90.2 CNMO 2024 10.8 15.9 6.8 13.1 10.8 43.2 Open-Ended 생성
Qwen2.5-72B 81.2 49.1 LLaMA3.1 405B 69.3 40.5 GPT-4o 80.4 51.1 Claude-3.5-Sonnet 85.2 52.0 DeepSeek-V3 85.5 70.0 3.13 Post-training 파이프라인
- Supervised Fine-Tuning (SFT):
- Reasoning 데이터: R1 모델로 rejection sampling 생성
- Non-reasoning 데이터: DeepSeek-V2.5 + 인간 검증
- Reinforcement Learning:
- 알고리즘: GRPO (별도 critic 불필요)
- Rule-based rewards: 수학, 코딩 (정확도 검증)
- Model-based rewards: 인간 선호도 주석
3.14 Insight: $5.576M이 AI 산업에 던진 충격파
V3의 학습 비용 $5.576M은 AI 업계의 상식을 뒤흔든 숫자다. GPT-4의 추정 학습 비용이 $100M 이상, LLaMA 3.1 405B가 $30M 이상으로 추정되는 상황에서, 671B 파라미터의 프론티어급 모델을 $5.576M에 학습시켰다는 것은 "프론티어 AI에는 프론티어급 예산이 필요하다"는 통념을 깨뜨렸습니다.
이 비용 효율은 단일 기술이 아니라 완결된 엔지니어링 스택의 결과입니다. Auxiliary-loss-free 밸런싱은 보조 손실로 인한 성능 저하를 제거하여 동일 학습량에서 더 높은 품질을 달성했고, FP8 학습은 메모리와 연산 양쪽을 절감하면서도 학습 안정성을 유지했습니다. DualPipe는 파이프라인 버블을 최소화하여 GPU 활용률을 극대화했습니다. 이 세 혁신이 맞물려 "14.8T 토큰, 2,048 H800 GPU, 복구 불가능한 손실 스파이크 0건, 롤백 0회"라는 전례 없는 학습 안정성을 달성했습니다.
V3가 증명한 것은 대규모 모델 학습의 접근성 민주화입니다. 이 결과는 직접적으로 Kimi K2, Qwen3-MoE, Hunyuan-Large 등 오픈 MoE 모델의 물결을 촉발했으며, 소수의 빅테크만 가능하다고 여겨졌던 프론티어 모델 학습이 더 넓은 연구 커뮤니티에도 가능하다는 것을 실증했습니다.4. DeepSeek-R1 (2025.01) — 추론 특화
논문: "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (arXiv:2501.12948)
Nature vol. 645, pp. 633-638 (2025) 게재4.1 기반 모델
- DeepSeek-V3-Base (671B/37B MoE)를 기반으로 구축
- V3의 MoE 아키텍처를 그대로 활용 (수정 없음)
4.2 DeepSeek-R1-Zero: 순수 RL 접근
- SFT 없이 순수 강화학습만으로 추론 능력 발현
- AIME 2024: 15.6% → 71.0% (pass@1), majority voting 시 86.7%
- 자발적으로 발현된 능력:
- Self-reflection (자기 반성)
- Verification (검증)
- Dynamic strategy adaptation (동적 전략 조정)
4.3 GRPO 알고리즘
Group Relative Policy Optimization:
J_GRPO(θ) = E[1/G × Σᵢ (min(π_θ(oᵢ|q) / π_θ_old(oᵢ|q) × Aᵢ, clip(...)) - β · D_KL(π_θ ∥ π_ref))]Advantage 계산:
Aᵢ = (rᵢ - mean(rewards)) / std(rewards)- 질문당 G개 출력에 대해 그룹 내 상대적 보상으로 advantage 계산
- 별도 critic/value 모델 불필요 → 메모리 효율적
4.4 4단계 학습 파이프라인
Stage 1: Cold Start
- 수천 개의 cold-start 데이터로 V3-Base fine-tuning
- 읽기 쉬운 형식: 추론 과정 + 요약
- Few-shot prompting + 상세 지시 프롬프트 + R1-Zero 출력 후처리 + 인간 주석 정제
Stage 2: Reasoning-Oriented RL
- 수학, 코딩, 과학 태스크에 대한 대규모 RL
- Language consistency reward: 언어 혼합 최소화
- 보상 타입:
- 정확도 보상: Rule-based (수학: 정답 형식 검증, 코딩: 컴파일러 테스트 케이스)
- 형식 보상:
<think>...</think>태그 내 추론 강제
Stage 3: Rejection Sampling & SFT
- ~600K reasoning 샘플 생성 (rejection sampling)
- ~200K non-reasoning 샘플 (writing, QA, translation 등, V3 파이프라인)
- 총 800K 샘플로 2 epoch fine-tuning
Stage 4: All-Scenario RL
- Rule-based rewards (추론) + Preference models (helpfulness/harmlessness) 결합
- 모든 시나리오에 대한 일반화 RL
4.5 실패한 시도
- Process Reward Models (PRM): 세밀한 단계 정의 어려움, 정답 판별 난이도, reward hacking
- Monte Carlo Tree Search (MCTS): 토큰 생성 검색 공간 기하급수적, value model 학습 복잡도
4.6 Distillation (증류)
R1의 800K 샘플로 소형 모델 fine-tuning (SFT only, RL 미적용):
Qwen2.5-Math 1.5B R1-Distill-Qwen-1.5B Qwen2.5-Math 7B R1-Distill-Qwen-7B Qwen2.5-Math 14B R1-Distill-Qwen-14B Qwen2.5 32B R1-Distill-Qwen-32B Llama-3.1 8B R1-Distill-Llama-8B Llama-3.3 70B R1-Distill-Llama-70B 4.7 학습 구성
항목 값 응답 템플릿 <think>reasoning</think> <answer>answer</answer>최대 생성 길이 32,768 tokens Sampling temperature 0.6 Top-p 0.95 Pass@k 평가 k=4-64 (데이터셋별) Majority voting 64 samples (AIME용) 4.8 벤치마크 결과
DeepSeek-R1 vs OpenAI o1
AIME 2024 (pass@1) 79.8% 79.2% 63.6% AIME (cons@64) 82.8% - 80.0% MATH-500 97.3% 96.4% 90.0% GPQA Diamond 71.5% 75.7% 60.0% LiveCodeBench 65.9% 63.4% 53.8% Codeforces Rating 2,029 2,061 1,820 MMLU 90.8% 91.8% 85.2% MMLU-Pro 84.0% - 80.3% C-Eval 91.8% - 68.9% SWE-Bench Verified 49.2% 48.9% 41.6% AlpacaEval 2.0 (LC) 87.6% - 57.8% ArenaHard 92.3% - 92.0% 증류 모델 성능
R1-Distill-Qwen-7B 55.5% 92.8% 49.1% R1-Distill-Qwen-14B 69.7% 93.9% 59.1% R1-Distill-Qwen-32B 72.6% 94.3% 62.1% R1-Distill-Llama-70B 70.0% 94.5% 65.2% QwQ-32B-Preview 50.0% 90.6% 54.5% o1-mini 63.6% 90.0% 60.0% 핵심 결과: 7B 증류 모델이 QwQ-32B-Preview를 전 벤치마크에서 초과
4.9 Insight: MoE는 추론 특화의 이상적 기반 아키텍처
R1이 증명한 가장 심오한 사실은 MoE 아키텍처가 사전학습 효율성뿐 아니라 추론 특화를 위한 이상적 기반이라는 점입니다. Dense 모델에서는 모든 파라미터가 모든 입력에 대해 동일하게 활성화되지만, MoE에서는 입력의 성격에 따라 서로 다른 전문가 조합이 동적으로 선택된다. 이 속성은 RL 기반 추론 학습과 만날 때 특별한 시너지를 발생시킵니다.
수학 문제를 풀 때와 코드를 작성할 때, 또는 창의적 글쓰기를 할 때 모델이 필요로 하는 능력은 근본적으로 다릅니다. R1의 4단계 RL 파이프라인은 이러한 다양한 추론 시나리오 각각에 대해 최적의 전문가 조합을 학습시키는 과정이며, 결과적으로 어려운 문제에 더 많은 연산을 동적으로 할당하는 효과를 만듭니다. R1-Zero에서 SFT 없이 순수 RL만으로 self-reflection, verification, dynamic strategy adaptation이 자발적으로 출현한 것은 MoE의 조합적 표현력이 RL의 탐색 공간과 결합하면서 창발적 추론 능력이 발현된 것으로 해석할 수 있습니다.
에이전트는 단일 작업이 아니라 계획 수립, 도구 사용, 오류 복구, 사용자 의도 파악 등 이질적 능력의 동적 결합을 필요로 합니다. Sparse expert routing이 제공하는 조합적 유연성은 다양한 기능을 하나의 모델 안에서 효율적으로 구현하는 데 적합한 구조입니다. R1 이후 Kimi K2 등의 에이전트 특화 MoE 모델이 등장으로 이어졌습니다.5. 아키텍처 진화 요약
5.1 DeepSeekMoE → V2 → V3 → R1 진화 테이블
총 파라미터 16.4B 236B 671B 671B (V3 기반) 활성 파라미터 2.8B 21B 37B 37B 라우팅 전문가 64 160 256 256 공유 전문가 2 2 1 1 활성 라우팅 전문가 6 6 8 8 게이트 함수 Softmax Softmax Sigmoid Sigmoid 로드 밸런싱 Aux Loss Aux Loss Bias Term Bias Term 어텐션 MHA MLA MLA MLA KV 캐시 압축 - 93.3% 93.3% 93.3% 학습 데이터 2T 8.1T 14.8T V3+RL 학습 정밀도 BF16 BF16 FP8 FP8 컨텍스트 - 128K 128K 128K MTP - - Yes (D=1) Yes RL - GRPO GRPO GRPO (4-stage) 학습 비용 - - $5.576M +RL비용 5.2 각 세대의 핵심 기여
DeepSeekMoE Fine-grained expert segmentation + Shared expert isolation V2 Multi-Head Latent Attention (MLA) → KV 캐시 93.3% 감소 V3 Aux-loss-free balancing + MTP + FP8 학습 + DualPipe R1 순수 RL 기반 추론 능력 발현 + 4-stage 학습 + 증류 5.3 핵심 수식 총정리
[1] Fine-grained MoE 출력: hₜˡ = Σ(i=1→Kₛ) FFNᵢ(uₜˡ) + Σ(i=Kₛ+1→mN) (gᵢ,ₜ · FFNᵢ(uₜˡ)) + uₜˡ [2] MLA KV 압축: cₜᴷⱽ = Wᴰᴷⱽ · hₜ (d → d_c = 512) kₜᶜ = Wᵁᴷ · cₜᴷⱽ (d_c → nₕ × dₕ) vₜᶜ = Wᵁⱽ · cₜᴷⱽ (d_c → nₕ × dₕ) [3] V3 Sigmoid Gating: sᵢ,ₜ = Sigmoid(uₜᵀ · eᵢ) [4] Aux-Loss-Free Routing: g'ᵢ,ₜ = sᵢ,ₜ if (sᵢ,ₜ + bᵢ) ∈ TopK({sⱼ,ₜ + bⱼ}) Bias update: bᵢ ← bᵢ ± γ (γ = 0.001) [5] MTP Loss: L_MTP = (λ/D) × Σₖ CrossEntropy(Pᵏ, t) (λ = 0.3→0.1) [6] GRPO Advantage: Aᵢ = (rᵢ - mean(r)) / std(r)References
- DeepSeekMoE Paper (arXiv:2401.06066)
- DeepSeek-V2 Paper (arXiv:2405.04434)
- DeepSeek-V3 Technical Report (arXiv:2412.19437)
- DeepSeek-R1 Paper (arXiv:2501.12948)
- DeepSeek-V3 GitHub Repository
- Understanding Multi-Head Latent Attention
- DeepSeek-V3 Technical Details by Grigory Sapunov
- DeepSeek-V3 Summary by VitaLab
- Inner Workings of DeepSeek-V3 by Chris McCormick
'Knowledge Base > Reports' 카테고리의 다른 글
Opus 4.6의 작업 회고 (2026.01 - 2026.02) (0) 2026.02.26 Anthropic's philosopher answers your questions (0) 2026.02.26 Kimi K2 / K2.5 Technical Report: Agentic Intelligence의 초안 (0) 2026.02.26 ML 기반 LLM 에이전트: 루브릭 엔지니어링 (2) 2026.02.21 LLM-as-Judge: Cohen's Kappa의 해상도 함정, 4-cat으로 일관성이 올랐다는 착각 (0) 2026.02.20