DeepSeek Technical Report: MoE Architecture

Knowledge Base/Reports 2026. 2. 26. 05:18

Author: Claude Code(Opus 4.6), mangowhoiscloud
Task: DeepSeekMoE → V2 → V3 → R1 아키텍처 진화 과정의 기술 분석
Date: 2026-02-26
출처: arXiv 논문, DeepSeek 공식 기술 보고서, 기술 분석 블로그

1. DeepSeekMoE (2024.01)

논문: "DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models" (arXiv:2401.06066)

1.1 핵심 요소

(1) Fine-Grained Expert Segmentation (세분화 전문가 분할)

기존 MoE: N개 전문가에서 Top-K 활성화
DeepSeekMoE: mN개의 더 작은 전문가로 분할하고 mK개를 활성화

각 전문가의 FFN 중간 차원을 1/m로 축소
활성화되는 전문가 수를 m배로 증가시켜 연산량 일정 유지
조합 폭발 효과: m=4, N=16 기준
- 기존 Top-2: C(16,2) = 120 조합
- Fine-grained Top-8 from 64: C(64,8) = 4,426,165,368 조합

MoE 출력 수식 (Fine-grained):

hₜˡ = Σ(i=1→mN) (gᵢ,ₜ · FFNᵢ(uₜˡ)) + uₜˡ

(2) Shared Expert Isolation (공유 전문가 분리)

Kₛ개의 전문가를 "공유 전문가"로 분리 → 모든 토큰에 대해 항상 활성화
공통 지식(common knowledge)을 흡수하여 라우팅 전문가의 중복성 제거
라우팅 전문가는 (mN - Kₛ)개 중에서 (mK - Kₛ)개를 활성화

DeepSeekMoE 수식:

hₜˡ = Σ(i=1→Kₛ) FFNᵢ(uₜˡ) + Σ(i=Kₛ+1→mN) (gᵢ,ₜ · FFNᵢ(uₜˡ)) + uₜˡ

1.2 로드 밸런싱

Expert-Level Balance Loss:

L_ExpBal = α₁ × Σ(i=1→N') fᵢ × Pᵢ

fᵢ: 전문가 i를 선택한 토큰 비율
Pᵢ: 평균 라우팅 확률

Device-Level Balance Loss:

L_DevBal = α₂ × Σ(i=1→D) fᵢ' × Pᵢ'

1.3 모델 스케일별 구성

총 파라미터	2.0B	16.4B	145B
활성 파라미터	0.3B	2.8B	~28B
공유 전문가	1	2	-
라우팅 전문가	63	64	-
활성 라우팅 전문가	7	6	-
전문가 크기(FFN 대비)	0.25×	-	-
학습 토큰	100B	2T	245B (진행중)
Hidden dim	-	2048	-
Layers	-	28	-

1.4 벤치마크 결과

DeepSeekMoE 2B vs 기존 MoE (2B scale):

Pile Loss	1.808	1.867	1.881
HellaSwag	54.8%	50.5%	49.1%
HumanEval	4.9	3.7	2.4
TriviaQA	16.6	10.2	8.9

DeepSeekMoE 16B vs Dense 모델:

DeepSeek 7B 대비 40.5% 연산량으로 동등/우월한 성능
LLaMA2 7B 대비 39.6% 연산량, 245% 총 파라미터
- HumanEval: 26.8 vs 14.6
- MBPP: 39.2% vs 21.8%
FLOPs/4K tokens: 74.4T (vs DeepSeek 7B의 183.5T)

핵심 하이퍼파라미터:

2B: lr=1.08×10^-3, batch=2K, balance factor=0.01
16B: lr=4.2×10^-4, batch=4.5K, balance factor=0.001
최적 공유:라우팅 비율 = 1:3

1.5 Insight: "많은 작은 전문가"라는 패러다임 전환

DeepSeekMoE의 Fine-Grained Expert Segmentation은 단순한 엔지니어링 트릭이 아니라 MoE 패러다임 자체를 재정의한 개념적 돌파구였습니다.
이전까지 MoE는 "소수의 큰 전문가가 각자 넓은 도메인을 담당한다"는 구조였고, 이는 전문가 간 지식 중복이 심하고 조합의 유연성이 극히 제한되었습니다. DeepSeekMoE는 이 전제를 뒤집어 "다수의 작은 전문가가 조합을 통해 무한에 가까운 표현력을 만든다."에 집중합니다.
120 vs 44억이라는 조합 수 차이는 단순한 숫자가 아닙니다. 인간 언어와 추론은 극도로 다양한 패턴의 조합으로 이루어져 있습니다. 코드 작성, 수학 증명, 창작 글쓰기, 논리적 대화 등은 각각 전혀 다른 능력의 조합을 필요로 하며, 44억 가지의 전문가 조합은 이 다양성을 충분히 커버할 수 있는 표현 공간을 제공합니다. Shared Expert Isolation은 여기에 "모든 언어 작업에 공통으로 필요한 기초 지식"을 별도로 보장함으로써, 라우팅 전문가들이 진정한 전문 영역에만 집중하게 만들었습니다.
이 설계 철학은 이후 V2, V3를 거쳐 R1까지 모든 DeepSeek 모델의 근간이 되었을 뿐 아니라, Mixtral, Qwen-MoE, Kimi K2 등 후속 MoE 모델들의 설계 원칙에도 직접적인 영향을 미쳤습니다.

2. DeepSeek-V2 (2024.05) — MLA + DeepSeekMoE 통합

논문: "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model" (arXiv:2405.04434)

2.1 모델 규모

총 파라미터	236B
활성 파라미터/토큰	21B
Transformer layers	60
Hidden dimension	5,120
컨텍스트 길이	128K tokens
어휘 크기	100K (BBPE)

2.2 Multi-Head Latent Attention (MLA) — 핵심 혁신

MLA 개요

기존 MHA의 Key-Value를 저차원 잠재 벡터(latent vector)로 압축
추론 시 KV 캐시를 93.3% 감소 (DeepSeek 67B 대비)
MHA 수준 성능 유지하면서 GQA 2.25 그룹 수준의 캐시 효율

MLA 핵심 차원

어텐션 헤드 수	nₕ	128
헤드 당 차원	dₕ	128
KV 압축 차원	d_c	512
Query 압축 차원	d_c'	1,536
디커플드 RoPE 차원	dₕᴿ	64 (= dₕ/2)

MLA 수식

KV 압축 (Down-projection):

cₜᴷⱽ = Wᴰᴷⱽ · hₜ              (d_model → d_c = 512)

KV 복원 (Up-projection):

kₜᶜ = Wᵁᴷ · cₜᴷⱽ              (d_c → nₕ × dₕ)
vₜᶜ = Wᵁⱽ · cₜᴷⱽ              (d_c → nₕ × dₕ)

디커플드 RoPE 처리:

kₜᴿ = RoPE(Wᴷᴿ · hₜ)           (d_model → dₕᴿ)

Query 압축:

cₜᵠ = Wᴰᵠ · hₜ                (d_model → d_c' = 1536)
qₜ = Wᵁᵠ · cₜᵠ                (d_c' → nₕ × dₕ)

어텐션 계산:

oₜ,ᵢ = Σⱼ Softmax(qₜ,ᵢᵀ · kⱼ,ᵢ / √(dₕ + dₕᴿ)) · vⱼ,ᵢᶜ

KV 캐시 크기 비교

표준 MHA	2 × nₕ × dₕ = 32,768	풀 KV 저장
MLA	d_c + dₕᴿ = 576	93.3% 감소
GQA (2 groups)	~2 × 2 × dₕ = 512	유사 수준

추론 최적화 — Absorption Trick:

추론 시 decompression 행렬을 후속 행렬에 흡수(absorb)
중간 비선형성 없으므로 행렬 합성 가능 → matmul 오버헤드 제거

실제 KV 캐시 메모리

표준 MHA: 213.5 GB
MLA: 7.6 GB → 28× 감소

2.3 DeepSeekMoE 구성 (V2)

라우팅 전문가 수	160/layer
공유 전문가 수	2/layer
활성 라우팅 전문가	6/token (Kᵣ = 6)
전문가 중간 hidden dim	1,536
MoE 적용 범위	첫 번째 레이어 제외 전체

Device-Limited Routing: M=3 (최대 3개 디바이스로 토큰 분산)

Expert Parallelism: D=8 디바이스

밸런스 로스 계수:

Expert-level: α₁ = 0.003
Device-level: α₂ = 0.05
Communication: α₃ = 0.02

게이트 함수: Softmax 기반

gᵢ,ₜ = Softmaxᵢ(uₜᵀ · eᵢ)  → Top-K 선택

2.4 학습 구성

사전학습 데이터	8.1T tokens
중국어:영어 비율	중국어 12% 더 많음
최대 시퀀스 길이(학습)	4K tokens
배치 크기	2,304 → 9,216 (처음 225B 토큰)
Optimizer	AdamW (β₁=0.9, β₂=0.95, wd=0.1)
학습률	max 2.4×10^-4, warmup 2K steps
학습률 감쇠	Step-decay ×0.316 at 60%, 90%
병렬화	16-way PP + 8-way EP + ZeRO-1 DP

학습 비용: DeepSeek 67B 대비 42.5% 절감

V2: 172.8K GPU hours/trillion tokens
67B: 300.6K GPU hours/trillion tokens

2.5 벤치마크 결과

영어 벤치마크:

MMLU (5-shot)	78.5%
BBH (3-shot)	78.9%
DROP (3-shot)	80.1%
ARC-Easy	97.6%
ARC-Challenge	92.4%
HumanEval (0-shot)	48.8%
MBPP (3-shot)	66.6%
GSM8K (8-shot)	79.2%
MATH (4-shot)	43.6%

중국어 벤치마크: C-Eval 81.7%, CMMLU 84.0%
추론 성능:

생성 처리량: 50K+ tokens/sec
프롬프트 처리량: 100K+ tokens/sec
DeepSeek 67B 대비 5.76× 최대 생성 처리량

Chat 평가 (Post-RL):

AlpacaEval 2.0: 38.9% LC win rate
MT-Bench: 8.97
AlignBench: 7.91

2.6 Long Context 확장 (YaRN)

Scale (s)	40
Alpha (α)	1
Beta (β)	32
목표 컨텍스트	160K (128K 평가)
Fine-tuning	1,000 steps @ 32K seq len
Length scaling	√t = 0.0707·ln(s) + 1

2.7 SFT & RL

SFT 데이터: 1.5M 인스턴스 (1.2M helpfulness + 0.3M safety)
SFT 학습: 2 epochs, lr=5×10^-6
RL: GRPO (Group Relative Policy Optimization) — 별도 critic 모델 불필요

2.8 Insight: MoE + MLA = 실용적 대규모 배포의 완성

DeepSeekMoE가 연산 효율을 해결했다면, V2의 MLA는 메모리 병목이라는 숨겨진 벽을 해결했습니다. MoE의 의의는 "전체 파라미터 대비 활성 파라미터를 극적으로 줄여 연산량을 절감하는 것"이지만, 추론 단계에서는 연산량 못지않게 KV 캐시 메모리가 치명적 병목이 됩니다. 특히 긴 컨텍스트를 처리해야 하는 실용적 시나리오에서, 표준 MHA의 KV 캐시(213.5 GB)는 MoE의 연산 절감을 무색하게 만들 수 있었습니다.
MLA는 이 문제를 KV를 512차원 잠재 벡터로 압축하여 7.6 GB로 줄이는 방식으로(28배 감소) 정면 돌파했다. 핵심은 Absorption Trick으로, 추론 시 decompression 행렬을 후속 행렬에 흡수시켜 성능 저하 없이 캐시를 압축한다는 점이다. GQA 같은 기존 접근법이 품질을 희생하며 캐시를 줄였다면, MLA는 MHA 수준의 성능을 유지하면서 GQA보다 더 효율적인 캐시를 달성했습니다.
MoE가 학습과 추론의 연산량을 줄이고, MLA가 추론의 메모리를 줄입니다. 이 두 혁신의 결합이야말로 수백 B 파라미터 모델을 실제 서비스에 배포할 수 있게 만든 결정적 조합입니다. V2 이후 MLA는 사실상 DeepSeek 아키텍처의 표준이 되었고, V3와 R1은 MLA를 수정 없이 그대로 계승했습니다.

3. DeepSeek-V3 (2024.12)

논문: "DeepSeek-V3 Technical Report" (arXiv:2412.19437)

3.1 모델 규모

총 파라미터	671B
활성 파라미터/토큰	37B
Transformer layers	61
Hidden dimension	7,168
어텐션 헤드 수	128
헤드 당 차원	128
컨텍스트 길이	128K tokens
어휘 크기	128K (Byte-level BPE)

3.2 MoE 아키텍처 (V3)

라우팅 전문가 수	160	256	+60%
공유 전문가 수	2	1	-50%
활성 라우팅 전문가	6	8	+33%
전문가 중간 dim	1,536	2,048	+33%
게이트 함수	Softmax	Sigmoid	변경
로드 밸런싱	Aux Loss	Aux-Loss-Free	혁신
노드 제한	M=3 devices	M=4 nodes	변경

3.3 Auxiliary-Loss-Free Load Balancing

기존 문제: 보조 손실(auxiliary loss)이 모델 성능을 저하시킴
V3 접근법: Bias Term 기반 동적 밸런싱

g'ᵢ,ₜ = { sᵢ,ₜ   if (sᵢ,ₜ + bᵢ) ∈ TopK({sⱼ,ₜ + bⱼ}, Kᵣ)
        { 0      otherwise

Affinity score: sᵢ,ₜ = Sigmoid(uₜᵀ · eᵢ) (V3에서 Softmax→Sigmoid 변경)
Bias term (bᵢ): 각 전문가에 할당된 편향값
핵심 원리: bias는 라우팅 결정에만 사용, 게이팅 값은 원래 affinity score에서 계산

Bias 업데이트 규칙:

if expertᵢ is overloaded:  bᵢ ← bᵢ - γ
if expertᵢ is underloaded: bᵢ ← bᵢ + γ

γ (bias update speed) = 0.001 (처음 14.3T 토큰)
γ = 0.0 (이후, 안정화 후)

보완적 Sequence-wise Auxiliary Loss:

시퀀스 내 불균형 방지를 위한 매우 작은 가중치의 보조 손실
가중치: α = 0.0001

3.4 Multi-Token Prediction (MTP)

설계:

예측 깊이: D = 1 (현재 토큰 + 1개 미래 토큰)
순차적 예측 방식 (병렬이 아닌) → 완전한 인과 관계 체인 유지

MTP 모듈 구성:

공유 임베딩 레이어
Transformer 블록 TRMₖ
프로젝션 행렬 Mₖ ∈ R^(d×2d)
공유 출력 헤드

학습 손실:

L_MTP = (λ/D) × Σₖ L_MTPᵏ

L_MTPᵏ = CrossEntropy(P₂₊ₖ:T₊₁ᵏ, t₂₊ₖ:T₊₁)

MTP 가중치 스케줄:

λ = 0.3 (처음 10T 토큰)
λ = 0.1 (이후 4.8T 토큰)

추론 시 활용:

MTP 모듈은 추론 시 제거 가능 (선택적)
Speculative decoding 시 사용하면 1.8× TPS 향상
두 번째 토큰 예측 수락률: 85-90%

3.5 MLA 구성 (V3)

V2와 동일한 MLA 아키텍처 유지:

KV 압축 차원 (d_c)	512
Query 압축 차원 (d_c')	1,536
디커플드 RoPE 차원 (dₕᴿ)	64
어텐션 헤드 수	128
헤드 당 차원	128

3.6 FP8 Mixed Precision Training

"최초로 초대규모 모델(671B)에서 FP8 학습을 검증한 프로덕션 모델"

FP8 적용 범위:

Linear forward GEMM | FP8 (E4M3)
Activation backward GEMM | FP8 (E4M3)
Weight backward GEMM | FP8 (E4M3)
Embedding 모듈 | BF16
Output head | BF16
MoE 게이팅 | BF16
Normalization | FP32
Attention operators | BF16
Master weights | FP32
Weight gradients | BF16
Optimizer states | FP32

양자화 전략:

Activations: 1×128 tile-wise grouping
Weights: 128×128 block-wise grouping
포맷: E4M3 (4-bit exponent, 3-bit mantissa) 통일 사용
누적 정밀도: FP32, promotion interval Nᶜ = 128 elements

저정밀도 저장:

Optimizer moments (AdamW 1st/2nd): BF16
Linear backward 캐시 activations: FP8
MoE dispatch 전 activations: FP8
All-to-all dispatch 통신: FP8
All-to-all combine 통신: BF16

3.7 DualPipe, 파이프라인 병렬 최적화

구성: 16-way Pipeline Parallelism (PP)
핵심 혁신: forward-backward 청크 쌍 내에서 연산과 통신을 오버랩
스케줄링:

양방향 파이프라인: micro-batch를 양 끝에서 공급
컴포넌트: attention → all-to-all dispatch → MLP → all-to-all combine
Backward: "backward for input"과 "backward for weights"로 분리

기존 대비 성능:

ZB1P 대비 버블: (PP-1)·(F+B-2W) → (PP/2-1)·(F&B+B-3W)
Activation 메모리: (PP+1)/PP배 (1F1B의 PP배 대비)
파라미터 복사: 2× (대규모 EP에서 허용 가능)

3.8 Expert Parallelism & 통신 최적화

배치:

64-way Expert Parallelism (8 노드, 노드당 8 GPU)
라우팅 전문가: 64 GPU에 균등 분산
Node-limited routing: M=4 (각 토큰 최대 4개 노드로 전송)

Cross-Node All-to-All 통신:

IB(InfiniBand): 50 GB/s (노드 간)
NVLink: 160 GB/s (노드 내)

통신 흐름:

Dispatch: IB sending → IB-to-NVLink forwarding → NVLink receiving
Combine: NVLink sending → forwarding + accumulation → IB receiving
통신 담당: 20 SMs (warp specialization 적용)

Tensor Parallelism 불사용: 메모리 최적화로 TP 없이도 충분

3.9 학습 하이퍼파라미터

Optimizer	AdamW (β₁ = 0.9, β₂ = 0.95, wd = 0.1)
Gradient clipping	1.0
학습 하드웨어	2,048 × NVIDIA H800 GPU
사전학습 데이터	14.8T tokens

학습률 스케줄:

1) Linear warmup: 0 → 2.2×10^-4 over 2K steps
2) Constant: 2.2×10^-4 until 10T tokens
3) Cosine decay: 2.2×10^-4 → 2.2×10^-5 over 4.3T tokens
4) Final (500B tokens): 2.2×10^-5 for 333B, then 7.3×10^-6

배치 크기 스케줄:

Gradual increase: 3,072 → 15,360 over first 469B tokens
Constant: 15,360 thereafter

시퀀스 길이:

Pre-training: 4K
Phase 1 확장: 32K (batch 1920, 1000 steps)
Phase 2 확장: 128K (batch 480, 1000 steps)
확장 단계 학습률: 7.3×10^-6

3.10 학습 비용 — $5.576M

Pre-training	2,664K	$5.328M
Context extension	119K	$0.238M
Post-training	5K	$0.01M
합계	2,788K	$5.576M

1T 토큰 학습: 180K H800 GPU hours (2,048 GPU 클러스터에서 3.7일)
전체 학습 과정에서 복구 불가능한 손실 스파이크 0건, 롤백 0회

비용 비교 (추정):

GPT-4: ~$100M+ (추정)
LLaMA 3.1 405B: ~$30M+ (추정)
DeepSeek-V3: $5.576M → 비용 효율 10-20×

3.11 추론 배치

Prefilling (최소 단위: 4 노드, 32 GPU):

Attention: TP4 + Sequence Parallelism + DP8
MoE: EP32, 32개 중복 전문가
온라인 통계 기반 전문가 복제로 로드 밸런싱

Decoding (최소 단위: 40 노드, 320 GPU):

Attention: TP4 + Sequence Parallelism + DP80
MoE: EP320, GPU당 1 전문가, 64 GPU는 중복/공유 전문가
InfiniBand point-to-point 전송 + IBGDA 기술

3.12 벤치마크 결과

Base Model 비교

Pile-test (BPB)	0.606	0.638	0.542	0.548
BBH (EM)	78.8	79.8	82.9	87.5
MMLU (Acc.)	78.4	85.0	84.4	87.1
MMLU-Pro (Acc.)	51.4	58.3	52.8	64.4
DROP (F1)	80.4	80.6	86.0	89.0
HumanEval (Pass@1)	43.3	53.0	54.9	65.2
MATH (EM)	43.4	54.4	49.0	61.6

Chat Model 비교 (>67B)

MMLU (EM)	80.6	85.3	88.6	88.3	87.2	88.5
DROP (3-shot F1)	87.8	76.7	88.7	88.3	83.7	91.6
HumanEval-Mul	77.4	77.3	77.2	81.7	80.5	82.6
Codeforces (%ile)	35.6	24.8	25.3	20.3	23.6	51.6
MATH-500 (EM)	74.7	80.0	73.8	78.3	74.6	90.2
CNMO 2024	10.8	15.9	6.8	13.1	10.8	43.2

Open-Ended 생성

Qwen2.5-72B	81.2	49.1
LLaMA3.1 405B	69.3	40.5
GPT-4o	80.4	51.1
Claude-3.5-Sonnet	85.2	52.0
DeepSeek-V3	85.5	70.0

3.13 Post-training 파이프라인

Supervised Fine-Tuning (SFT):
- Reasoning 데이터: R1 모델로 rejection sampling 생성
- Non-reasoning 데이터: DeepSeek-V2.5 + 인간 검증
Reinforcement Learning:
- 알고리즘: GRPO (별도 critic 불필요)
- Rule-based rewards: 수학, 코딩 (정확도 검증)
- Model-based rewards: 인간 선호도 주석

3.14 Insight: $5.576M이 AI 산업에 던진 충격파

V3의 학습 비용 $5.576M은 AI 업계의 상식을 뒤흔든 숫자다. GPT-4의 추정 학습 비용이 $100M 이상, LLaMA 3.1 405B가 $30M 이상으로 추정되는 상황에서, 671B 파라미터의 프론티어급 모델을 $5.576M에 학습시켰다는 것은 "프론티어 AI에는 프론티어급 예산이 필요하다"는 통념을 깨뜨렸습니다.
이 비용 효율은 단일 기술이 아니라 완결된 엔지니어링 스택의 결과입니다. Auxiliary-loss-free 밸런싱은 보조 손실로 인한 성능 저하를 제거하여 동일 학습량에서 더 높은 품질을 달성했고, FP8 학습은 메모리와 연산 양쪽을 절감하면서도 학습 안정성을 유지했습니다. DualPipe는 파이프라인 버블을 최소화하여 GPU 활용률을 극대화했습니다. 이 세 혁신이 맞물려 "14.8T 토큰, 2,048 H800 GPU, 복구 불가능한 손실 스파이크 0건, 롤백 0회"라는 전례 없는 학습 안정성을 달성했습니다.
V3가 증명한 것은 대규모 모델 학습의 접근성 민주화입니다. 이 결과는 직접적으로 Kimi K2, Qwen3-MoE, Hunyuan-Large 등 오픈 MoE 모델의 물결을 촉발했으며, 소수의 빅테크만 가능하다고 여겨졌던 프론티어 모델 학습이 더 넓은 연구 커뮤니티에도 가능하다는 것을 실증했습니다.

4. DeepSeek-R1 (2025.01) — 추론 특화

논문: "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (arXiv:2501.12948)
Nature vol. 645, pp. 633-638 (2025) 게재

4.1 기반 모델

DeepSeek-V3-Base (671B/37B MoE)를 기반으로 구축
V3의 MoE 아키텍처를 그대로 활용 (수정 없음)

4.2 DeepSeek-R1-Zero: 순수 RL 접근

SFT 없이 순수 강화학습만으로 추론 능력 발현
AIME 2024: 15.6% → 71.0% (pass@1), majority voting 시 86.7%
자발적으로 발현된 능력:
- Self-reflection (자기 반성)
- Verification (검증)
- Dynamic strategy adaptation (동적 전략 조정)

4.3 GRPO 알고리즘

Group Relative Policy Optimization:

J_GRPO(θ) = E[1/G × Σᵢ (min(π_θ(oᵢ|q) / π_θ_old(oᵢ|q) × Aᵢ, clip(...)) - β · D_KL(π_θ ∥ π_ref))]

Advantage 계산:

Aᵢ = (rᵢ - mean(rewards)) / std(rewards)

질문당 G개 출력에 대해 그룹 내 상대적 보상으로 advantage 계산
별도 critic/value 모델 불필요 → 메모리 효율적

4.4 4단계 학습 파이프라인

Stage 1: Cold Start

수천 개의 cold-start 데이터로 V3-Base fine-tuning
읽기 쉬운 형식: 추론 과정 + 요약
Few-shot prompting + 상세 지시 프롬프트 + R1-Zero 출력 후처리 + 인간 주석 정제

Stage 2: Reasoning-Oriented RL

수학, 코딩, 과학 태스크에 대한 대규모 RL
Language consistency reward: 언어 혼합 최소화
보상 타입:
- 정확도 보상: Rule-based (수학: 정답 형식 검증, 코딩: 컴파일러 테스트 케이스)
- 형식 보상: <think>...</think> 태그 내 추론 강제

Stage 3: Rejection Sampling & SFT

~600K reasoning 샘플 생성 (rejection sampling)
~200K non-reasoning 샘플 (writing, QA, translation 등, V3 파이프라인)
총 800K 샘플로 2 epoch fine-tuning

Stage 4: All-Scenario RL

Rule-based rewards (추론) + Preference models (helpfulness/harmlessness) 결합
모든 시나리오에 대한 일반화 RL

4.5 실패한 시도

Process Reward Models (PRM): 세밀한 단계 정의 어려움, 정답 판별 난이도, reward hacking
Monte Carlo Tree Search (MCTS): 토큰 생성 검색 공간 기하급수적, value model 학습 복잡도

4.6 Distillation (증류)

R1의 800K 샘플로 소형 모델 fine-tuning (SFT only, RL 미적용):

Qwen2.5-Math 1.5B	R1-Distill-Qwen-1.5B
Qwen2.5-Math 7B	R1-Distill-Qwen-7B
Qwen2.5-Math 14B	R1-Distill-Qwen-14B
Qwen2.5 32B	R1-Distill-Qwen-32B
Llama-3.1 8B	R1-Distill-Llama-8B
Llama-3.3 70B	R1-Distill-Llama-70B

4.7 학습 구성

항목	값
응답 템플릿	`<think>reasoning</think> <answer>answer</answer>`
최대 생성 길이	32,768 tokens
Sampling temperature	0.6
Top-p	0.95
Pass@k 평가	k=4-64 (데이터셋별)
Majority voting	64 samples (AIME용)

4.8 벤치마크 결과

DeepSeek-R1 vs OpenAI o1

AIME 2024 (pass@1)	79.8%	79.2%	63.6%
AIME (cons@64)	82.8%	-	80.0%
MATH-500	97.3%	96.4%	90.0%
GPQA Diamond	71.5%	75.7%	60.0%
LiveCodeBench	65.9%	63.4%	53.8%
Codeforces Rating	2,029	2,061	1,820
MMLU	90.8%	91.8%	85.2%
MMLU-Pro	84.0%	-	80.3%
C-Eval	91.8%	-	68.9%
SWE-Bench Verified	49.2%	48.9%	41.6%
AlpacaEval 2.0 (LC)	87.6%	-	57.8%
ArenaHard	92.3%	-	92.0%

증류 모델 성능

R1-Distill-Qwen-7B	55.5%	92.8%	49.1%
R1-Distill-Qwen-14B	69.7%	93.9%	59.1%
R1-Distill-Qwen-32B	72.6%	94.3%	62.1%
R1-Distill-Llama-70B	70.0%	94.5%	65.2%
QwQ-32B-Preview	50.0%	90.6%	54.5%
o1-mini	63.6%	90.0%	60.0%

핵심 결과: 7B 증류 모델이 QwQ-32B-Preview를 전 벤치마크에서 초과

4.9 Insight: MoE는 추론 특화의 이상적 기반 아키텍처

R1이 증명한 가장 심오한 사실은 MoE 아키텍처가 사전학습 효율성뿐 아니라 추론 특화를 위한 이상적 기반이라는 점입니다. Dense 모델에서는 모든 파라미터가 모든 입력에 대해 동일하게 활성화되지만, MoE에서는 입력의 성격에 따라 서로 다른 전문가 조합이 동적으로 선택된다. 이 속성은 RL 기반 추론 학습과 만날 때 특별한 시너지를 발생시킵니다.
수학 문제를 풀 때와 코드를 작성할 때, 또는 창의적 글쓰기를 할 때 모델이 필요로 하는 능력은 근본적으로 다릅니다. R1의 4단계 RL 파이프라인은 이러한 다양한 추론 시나리오 각각에 대해 최적의 전문가 조합을 학습시키는 과정이며, 결과적으로 어려운 문제에 더 많은 연산을 동적으로 할당하는 효과를 만듭니다. R1-Zero에서 SFT 없이 순수 RL만으로 self-reflection, verification, dynamic strategy adaptation이 자발적으로 출현한 것은 MoE의 조합적 표현력이 RL의 탐색 공간과 결합하면서 창발적 추론 능력이 발현된 것으로 해석할 수 있습니다.
에이전트는 단일 작업이 아니라 계획 수립, 도구 사용, 오류 복구, 사용자 의도 파악 등 이질적 능력의 동적 결합을 필요로 합니다. Sparse expert routing이 제공하는 조합적 유연성은 다양한 기능을 하나의 모델 안에서 효율적으로 구현하는 데 적합한 구조입니다. R1 이후 Kimi K2 등의 에이전트 특화 MoE 모델이 등장으로 이어졌습니다.

5. 아키텍처 진화 요약

5.1 DeepSeekMoE → V2 → V3 → R1 진화 테이블

총 파라미터	16.4B	236B	671B	671B (V3 기반)
활성 파라미터	2.8B	21B	37B	37B
라우팅 전문가	64	160	256	256
공유 전문가	2	2	1	1
활성 라우팅 전문가	6	6	8	8
게이트 함수	Softmax	Softmax	Sigmoid	Sigmoid
로드 밸런싱	Aux Loss	Aux Loss	Bias Term	Bias Term
어텐션	MHA	MLA	MLA	MLA
KV 캐시 압축	-	93.3%	93.3%	93.3%
학습 데이터	2T	8.1T	14.8T	V3+RL
학습 정밀도	BF16	BF16	FP8	FP8
컨텍스트	-	128K	128K	128K
MTP	-	-	Yes (D=1)	Yes
RL	-	GRPO	GRPO	GRPO (4-stage)
학습 비용	-	-	$5.576M	+RL비용

5.2 각 세대의 핵심 기여

DeepSeekMoE	Fine-grained expert segmentation + Shared expert isolation
V2	Multi-Head Latent Attention (MLA) → KV 캐시 93.3% 감소
V3	Aux-loss-free balancing + MTP + FP8 학습 + DualPipe
R1	순수 RL 기반 추론 능력 발현 + 4-stage 학습 + 증류

5.3 핵심 수식 총정리

[1] Fine-grained MoE 출력:
    hₜˡ = Σ(i=1→Kₛ) FFNᵢ(uₜˡ) + Σ(i=Kₛ+1→mN) (gᵢ,ₜ · FFNᵢ(uₜˡ)) + uₜˡ

[2] MLA KV 압축:
    cₜᴷⱽ = Wᴰᴷⱽ · hₜ         (d → d_c = 512)
    kₜᶜ = Wᵁᴷ · cₜᴷⱽ          (d_c → nₕ × dₕ)
    vₜᶜ = Wᵁⱽ · cₜᴷⱽ          (d_c → nₕ × dₕ)

[3] V3 Sigmoid Gating:
    sᵢ,ₜ = Sigmoid(uₜᵀ · eᵢ)

[4] Aux-Loss-Free Routing:
    g'ᵢ,ₜ = sᵢ,ₜ if (sᵢ,ₜ + bᵢ) ∈ TopK({sⱼ,ₜ + bⱼ})
    Bias update: bᵢ ← bᵢ ± γ  (γ = 0.001)

[5] MTP Loss:
    L_MTP = (λ/D) × Σₖ CrossEntropy(Pᵏ, t)  (λ = 0.3→0.1)

[6] GRPO Advantage:
    Aᵢ = (rᵢ - mean(r)) / std(r)

References

'Knowledge Base > Reports' 카테고리의 다른 글

Opus 4.6의 작업 회고 (2026.01 - 2026.02) (0)	2026.02.26
Anthropic's philosopher answers your questions (0)	2026.02.26
Kimi K2 / K2.5 Technical Report: Agentic Intelligence의 초안 (0)	2026.02.26
ML 기반 LLM 에이전트: 루브릭 엔지니어링 (2)	2026.02.21
LLM-as-Judge: Cohen's Kappa의 해상도 함정, 4-cat으로 일관성이 올랐다는 착각 (0)	2026.02.20

ABOUT ME