ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • DeepSeek Technical Report: MoE Architecture
    Knowledge Base/Reports 2026. 2. 26. 05:18

    Author: Claude Code(Opus 4.6), mangowhoiscloud
    Task: DeepSeekMoE → V2 → V3 → R1 아키텍처 진화 과정의 기술 분석
    Date: 2026-02-26
    출처: arXiv 논문, DeepSeek 공식 기술 보고서, 기술 분석 블로그


    1. DeepSeekMoE (2024.01)

    논문: "DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models" (arXiv:2401.06066)

    1.1 핵심 요소

    (1) Fine-Grained Expert Segmentation (세분화 전문가 분할)

    기존 MoE: N개 전문가에서 Top-K 활성화
    DeepSeekMoE: mN개의 더 작은 전문가로 분할하고 mK개를 활성화

    • 각 전문가의 FFN 중간 차원을 1/m로 축소
    • 활성화되는 전문가 수를 m배로 증가시켜 연산량 일정 유지
    • 조합 폭발 효과: m=4, N=16 기준
      • 기존 Top-2: C(16,2) = 120 조합
      • Fine-grained Top-8 from 64: C(64,8) = 4,426,165,368 조합

    MoE 출력 수식 (Fine-grained):

    hₜˡ = Σ(i=1→mN) (gᵢ,ₜ · FFNᵢ(uₜˡ)) + uₜˡ

    (2) Shared Expert Isolation (공유 전문가 분리)

    • Kₛ개의 전문가를 "공유 전문가"로 분리 → 모든 토큰에 대해 항상 활성화
    • 공통 지식(common knowledge)을 흡수하여 라우팅 전문가의 중복성 제거
    • 라우팅 전문가는 (mN - Kₛ)개 중에서 (mK - Kₛ)개를 활성화

    DeepSeekMoE 수식:

    hₜˡ = Σ(i=1→Kₛ) FFNᵢ(uₜˡ) + Σ(i=Kₛ+1→mN) (gᵢ,ₜ · FFNᵢ(uₜˡ)) + uₜˡ

    1.2 로드 밸런싱

    Expert-Level Balance Loss:

    L_ExpBal = α₁ × Σ(i=1→N') fᵢ × Pᵢ
    • fᵢ: 전문가 i를 선택한 토큰 비율
    • Pᵢ: 평균 라우팅 확률

    Device-Level Balance Loss:

    L_DevBal = α₂ × Σ(i=1→D) fᵢ' × Pᵢ'

    1.3 모델 스케일별 구성

    총 파라미터2.0B16.4B145B
    활성 파라미터0.3B2.8B~28B
    공유 전문가12-
    라우팅 전문가6364-
    활성 라우팅 전문가76-
    전문가 크기(FFN 대비)0.25×--
    학습 토큰100B2T245B (진행중)
    Hidden dim-2048-
    Layers-28-

    1.4 벤치마크 결과

    DeepSeekMoE 2B vs 기존 MoE (2B scale):

    Pile Loss1.8081.8671.881
    HellaSwag54.8%50.5%49.1%
    HumanEval4.93.72.4
    TriviaQA16.610.28.9

    DeepSeekMoE 16B vs Dense 모델:

    • DeepSeek 7B 대비 40.5% 연산량으로 동등/우월한 성능
    • LLaMA2 7B 대비 39.6% 연산량, 245% 총 파라미터
      • HumanEval: 26.8 vs 14.6
      • MBPP: 39.2% vs 21.8%
    • FLOPs/4K tokens: 74.4T (vs DeepSeek 7B의 183.5T)

    핵심 하이퍼파라미터:

    • 2B: lr=1.08×10^-3, batch=2K, balance factor=0.01
    • 16B: lr=4.2×10^-4, batch=4.5K, balance factor=0.001
    • 최적 공유:라우팅 비율 = 1:3

    1.5 Insight: "많은 작은 전문가"라는 패러다임 전환

    DeepSeekMoE의 Fine-Grained Expert Segmentation은 단순한 엔지니어링 트릭이 아니라 MoE 패러다임 자체를 재정의한 개념적 돌파구였습니다.
    이전까지 MoE는 "소수의 큰 전문가가 각자 넓은 도메인을 담당한다"는 구조였고, 이는 전문가 간 지식 중복이 심하고 조합의 유연성이 극히 제한되었습니다. DeepSeekMoE는 이 전제를 뒤집어 "다수의 작은 전문가가 조합을 통해 무한에 가까운 표현력을 만든다."에 집중합니다.
    120 vs 44억이라는 조합 수 차이는 단순한 숫자가 아닙니다. 인간 언어와 추론은 극도로 다양한 패턴의 조합으로 이루어져 있습니다. 코드 작성, 수학 증명, 창작 글쓰기, 논리적 대화 등은 각각 전혀 다른 능력의 조합을 필요로 하며, 44억 가지의 전문가 조합은 이 다양성을 충분히 커버할 수 있는 표현 공간을 제공합니다. Shared Expert Isolation은 여기에 "모든 언어 작업에 공통으로 필요한 기초 지식"을 별도로 보장함으로써, 라우팅 전문가들이 진정한 전문 영역에만 집중하게 만들었습니다.
    이 설계 철학은 이후 V2, V3를 거쳐 R1까지 모든 DeepSeek 모델의 근간이 되었을 뿐 아니라, Mixtral, Qwen-MoE, Kimi K2 등 후속 MoE 모델들의 설계 원칙에도 직접적인 영향을 미쳤습니다.


    2. DeepSeek-V2 (2024.05) — MLA + DeepSeekMoE 통합

    논문: "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model" (arXiv:2405.04434)

    2.1 모델 규모

    총 파라미터236B
    활성 파라미터/토큰21B
    Transformer layers60
    Hidden dimension5,120
    컨텍스트 길이128K tokens
    어휘 크기100K (BBPE)

    2.2 Multi-Head Latent Attention (MLA) — 핵심 혁신

    MLA 개요

    • 기존 MHA의 Key-Value를 저차원 잠재 벡터(latent vector)로 압축
    • 추론 시 KV 캐시를 93.3% 감소 (DeepSeek 67B 대비)
    • MHA 수준 성능 유지하면서 GQA 2.25 그룹 수준의 캐시 효율

    MLA 핵심 차원

    어텐션 헤드 수nₕ128
    헤드 당 차원dₕ128
    KV 압축 차원d_c512
    Query 압축 차원d_c'1,536
    디커플드 RoPE 차원dₕᴿ64 (= dₕ/2)

    MLA 수식

    KV 압축 (Down-projection):

    cₜᴷⱽ = Wᴰᴷⱽ · hₜ              (d_model → d_c = 512)

    KV 복원 (Up-projection):

    kₜᶜ = Wᵁᴷ · cₜᴷⱽ              (d_c → nₕ × dₕ)
    vₜᶜ = Wᵁⱽ · cₜᴷⱽ              (d_c → nₕ × dₕ)

    디커플드 RoPE 처리:

    kₜᴿ = RoPE(Wᴷᴿ · hₜ)           (d_model → dₕᴿ)

    Query 압축:

    cₜᵠ = Wᴰᵠ · hₜ                (d_model → d_c' = 1536)
    qₜ = Wᵁᵠ · cₜᵠ                (d_c' → nₕ × dₕ)

    어텐션 계산:

    oₜ,ᵢ = Σⱼ Softmax(qₜ,ᵢᵀ · kⱼ,ᵢ / √(dₕ + dₕᴿ)) · vⱼ,ᵢᶜ

    KV 캐시 크기 비교

    표준 MHA2 × nₕ × dₕ = 32,768풀 KV 저장
    MLAd_c + dₕᴿ = 57693.3% 감소
    GQA (2 groups)~2 × 2 × dₕ = 512유사 수준

    추론 최적화 — Absorption Trick:

    • 추론 시 decompression 행렬을 후속 행렬에 흡수(absorb)
    • 중간 비선형성 없으므로 행렬 합성 가능 → matmul 오버헤드 제거

    실제 KV 캐시 메모리

    • 표준 MHA: 213.5 GB
    • MLA: 7.6 GB28× 감소

    2.3 DeepSeekMoE 구성 (V2)

    라우팅 전문가 수160/layer
    공유 전문가 수2/layer
    활성 라우팅 전문가6/token (Kᵣ = 6)
    전문가 중간 hidden dim1,536
    MoE 적용 범위첫 번째 레이어 제외 전체

    Device-Limited Routing: M=3 (최대 3개 디바이스로 토큰 분산)

    • Expert Parallelism: D=8 디바이스

    밸런스 로스 계수:

    • Expert-level: α₁ = 0.003
    • Device-level: α₂ = 0.05
    • Communication: α₃ = 0.02

    게이트 함수: Softmax 기반

    gᵢ,ₜ = Softmaxᵢ(uₜᵀ · eᵢ)  → Top-K 선택

    2.4 학습 구성

    사전학습 데이터8.1T tokens
    중국어:영어 비율중국어 12% 더 많음
    최대 시퀀스 길이(학습)4K tokens
    배치 크기2,304 → 9,216 (처음 225B 토큰)
    OptimizerAdamW (β₁=0.9, β₂=0.95, wd=0.1)
    학습률max 2.4×10^-4, warmup 2K steps
    학습률 감쇠Step-decay ×0.316 at 60%, 90%
    병렬화16-way PP + 8-way EP + ZeRO-1 DP

    학습 비용: DeepSeek 67B 대비 42.5% 절감

    • V2: 172.8K GPU hours/trillion tokens
    • 67B: 300.6K GPU hours/trillion tokens

    2.5 벤치마크 결과

    영어 벤치마크:

    MMLU (5-shot)78.5% 
    BBH (3-shot)78.9% 
    DROP (3-shot)80.1% 
    ARC-Easy97.6% 
    ARC-Challenge92.4% 
    HumanEval (0-shot)48.8% 
    MBPP (3-shot)66.6% 
    GSM8K (8-shot)79.2% 
    MATH (4-shot)43.6% 

    중국어 벤치마크: C-Eval 81.7%, CMMLU 84.0%
    추론 성능:

    • 생성 처리량: 50K+ tokens/sec
    • 프롬프트 처리량: 100K+ tokens/sec
    • DeepSeek 67B 대비 5.76× 최대 생성 처리량

    Chat 평가 (Post-RL):

    • AlpacaEval 2.0: 38.9% LC win rate
    • MT-Bench: 8.97
    • AlignBench: 7.91

    2.6 Long Context 확장 (YaRN)

    Scale (s)40
    Alpha (α)1
    Beta (β)32
    목표 컨텍스트160K (128K 평가)
    Fine-tuning1,000 steps @ 32K seq len
    Length scaling√t = 0.0707·ln(s) + 1

    2.7 SFT & RL

    • SFT 데이터: 1.5M 인스턴스 (1.2M helpfulness + 0.3M safety)
    • SFT 학습: 2 epochs, lr=5×10^-6
    • RL: GRPO (Group Relative Policy Optimization) — 별도 critic 모델 불필요

    2.8 Insight: MoE + MLA = 실용적 대규모 배포의 완성

    DeepSeekMoE가 연산 효율을 해결했다면, V2의 MLA는 메모리 병목이라는 숨겨진 벽을 해결했습니다. MoE의 의의는 "전체 파라미터 대비 활성 파라미터를 극적으로 줄여 연산량을 절감하는 것"이지만, 추론 단계에서는 연산량 못지않게 KV 캐시 메모리가 치명적 병목이 됩니다. 특히 긴 컨텍스트를 처리해야 하는 실용적 시나리오에서, 표준 MHA의 KV 캐시(213.5 GB)는 MoE의 연산 절감을 무색하게 만들 수 있었습니다.
    MLA는 이 문제를 KV를 512차원 잠재 벡터로 압축하여 7.6 GB로 줄이는 방식으로(28배 감소) 정면 돌파했다. 핵심은 Absorption Trick으로, 추론 시 decompression 행렬을 후속 행렬에 흡수시켜 성능 저하 없이 캐시를 압축한다는 점이다. GQA 같은 기존 접근법이 품질을 희생하며 캐시를 줄였다면, MLA는 MHA 수준의 성능을 유지하면서 GQA보다 더 효율적인 캐시를 달성했습니다.
    MoE가 학습과 추론의 연산량을 줄이고, MLA가 추론의 메모리를 줄입니다. 이 두 혁신의 결합이야말로 수백 B 파라미터 모델을 실제 서비스에 배포할 수 있게 만든 결정적 조합입니다. V2 이후 MLA는 사실상 DeepSeek 아키텍처의 표준이 되었고, V3와 R1은 MLA를 수정 없이 그대로 계승했습니다.


    3. DeepSeek-V3 (2024.12)

    논문: "DeepSeek-V3 Technical Report" (arXiv:2412.19437)

    3.1 모델 규모

    총 파라미터671B
    활성 파라미터/토큰37B
    Transformer layers61
    Hidden dimension7,168
    어텐션 헤드 수128
    헤드 당 차원128
    컨텍스트 길이128K tokens
    어휘 크기128K (Byte-level BPE)

    3.2 MoE 아키텍처 (V3)

    라우팅 전문가 수160256+60%
    공유 전문가 수21-50%
    활성 라우팅 전문가68+33%
    전문가 중간 dim1,5362,048+33%
    게이트 함수SoftmaxSigmoid변경
    로드 밸런싱Aux LossAux-Loss-Free혁신
    노드 제한M=3 devicesM=4 nodes변경

    3.3 Auxiliary-Loss-Free Load Balancing

    기존 문제: 보조 손실(auxiliary loss)이 모델 성능을 저하시킴
    V3 접근법: Bias Term 기반 동적 밸런싱

    g'ᵢ,ₜ = { sᵢ,ₜ   if (sᵢ,ₜ + bᵢ) ∈ TopK({sⱼ,ₜ + bⱼ}, Kᵣ)
            { 0      otherwise
    • Affinity score: sᵢ,ₜ = Sigmoid(uₜᵀ · eᵢ) (V3에서 Softmax→Sigmoid 변경)
    • Bias term (bᵢ): 각 전문가에 할당된 편향값
    • 핵심 원리: bias는 라우팅 결정에만 사용, 게이팅 값은 원래 affinity score에서 계산

    Bias 업데이트 규칙:

    if expertᵢ is overloaded:  bᵢ ← bᵢ - γ
    if expertᵢ is underloaded: bᵢ ← bᵢ + γ
    • γ (bias update speed) = 0.001 (처음 14.3T 토큰)
    • γ = 0.0 (이후, 안정화 후)

    보완적 Sequence-wise Auxiliary Loss:

    • 시퀀스 내 불균형 방지를 위한 매우 작은 가중치의 보조 손실
    • 가중치: α = 0.0001

    3.4 Multi-Token Prediction (MTP)

    설계:

    • 예측 깊이: D = 1 (현재 토큰 + 1개 미래 토큰)
    • 순차적 예측 방식 (병렬이 아닌) → 완전한 인과 관계 체인 유지

    MTP 모듈 구성:

    • 공유 임베딩 레이어
    • Transformer 블록 TRMₖ
    • 프로젝션 행렬 Mₖ ∈ R^(d×2d)
    • 공유 출력 헤드

    학습 손실:

    L_MTP = (λ/D) × Σₖ L_MTPᵏ
    
    L_MTPᵏ = CrossEntropy(P₂₊ₖ:T₊₁ᵏ, t₂₊ₖ:T₊₁)

    MTP 가중치 스케줄:

    • λ = 0.3 (처음 10T 토큰)
    • λ = 0.1 (이후 4.8T 토큰)

    추론 시 활용:

    • MTP 모듈은 추론 시 제거 가능 (선택적)
    • Speculative decoding 시 사용하면 1.8× TPS 향상
    • 두 번째 토큰 예측 수락률: 85-90%

    3.5 MLA 구성 (V3)

    V2와 동일한 MLA 아키텍처 유지:

    KV 압축 차원 (d_c)512
    Query 압축 차원 (d_c')1,536
    디커플드 RoPE 차원 (dₕᴿ)64
    어텐션 헤드 수128
    헤드 당 차원128

    3.6 FP8 Mixed Precision Training

    "최초로 초대규모 모델(671B)에서 FP8 학습을 검증한 프로덕션 모델"

     
    FP8 적용 범위:

    • Linear forward GEMM | FP8 (E4M3) 
    • Activation backward GEMM | FP8 (E4M3)
    • Weight backward GEMM | FP8 (E4M3)
    • Embedding 모듈 | BF16
    • Output head | BF16
    • MoE 게이팅 | BF16
    • Normalization | FP32
    • Attention operators | BF16
    • Master weights | FP32
    • Weight gradients | BF16
    • Optimizer states | FP32

     
    양자화 전략:

    • Activations: 1×128 tile-wise grouping
    • Weights: 128×128 block-wise grouping
    • 포맷: E4M3 (4-bit exponent, 3-bit mantissa) 통일 사용
    • 누적 정밀도: FP32, promotion interval Nᶜ = 128 elements

    저정밀도 저장:

    • Optimizer moments (AdamW 1st/2nd): BF16
    • Linear backward 캐시 activations: FP8
    • MoE dispatch 전 activations: FP8
    • All-to-all dispatch 통신: FP8
    • All-to-all combine 통신: BF16

    3.7 DualPipe, 파이프라인 병렬 최적화

    구성: 16-way Pipeline Parallelism (PP)
    핵심 혁신: forward-backward 청크 쌍 내에서 연산과 통신을 오버랩
    스케줄링:

    • 양방향 파이프라인: micro-batch를 양 끝에서 공급
    • 컴포넌트: attention → all-to-all dispatch → MLP → all-to-all combine
    • Backward: "backward for input"과 "backward for weights"로 분리

    기존 대비 성능:

    • ZB1P 대비 버블: (PP-1)·(F+B-2W)(PP/2-1)·(F&B+B-3W)
    • Activation 메모리: (PP+1)/PP배 (1F1B의 PP배 대비)
    • 파라미터 복사: 2× (대규모 EP에서 허용 가능)

    3.8 Expert Parallelism & 통신 최적화

    배치:

    • 64-way Expert Parallelism (8 노드, 노드당 8 GPU)
    • 라우팅 전문가: 64 GPU에 균등 분산
    • Node-limited routing: M=4 (각 토큰 최대 4개 노드로 전송)

    Cross-Node All-to-All 통신:

    IB(InfiniBand): 50 GB/s (노드 간)
    NVLink: 160 GB/s (노드 내)

    통신 흐름:

    • Dispatch: IB sending → IB-to-NVLink forwarding → NVLink receiving
    • Combine: NVLink sending → forwarding + accumulation → IB receiving
    • 통신 담당: 20 SMs (warp specialization 적용)

    Tensor Parallelism 불사용: 메모리 최적화로 TP 없이도 충분

    3.9 학습 하이퍼파라미터

    OptimizerAdamW (β₁ = 0.9, β₂ = 0.95, wd = 0.1)
    Gradient clipping1.0
    학습 하드웨어2,048 × NVIDIA H800 GPU
    사전학습 데이터14.8T tokens

    학습률 스케줄:

    1) Linear warmup: 0 → 2.2×10^-4 over 2K steps
    2) Constant: 2.2×10^-4 until 10T tokens
    3) Cosine decay: 2.2×10^-4 → 2.2×10^-5 over 4.3T tokens
    4) Final (500B tokens): 2.2×10^-5 for 333B, then 7.3×10^-6

    배치 크기 스케줄:

    Gradual increase: 3,072 → 15,360 over first 469B tokens
    Constant: 15,360 thereafter

    시퀀스 길이:

    • Pre-training: 4K
    • Phase 1 확장: 32K (batch 1920, 1000 steps)
    • Phase 2 확장: 128K (batch 480, 1000 steps)
    • 확장 단계 학습률: 7.3×10^-6

    3.10 학습 비용 — $5.576M

    Pre-training2,664K$5.328M
    Context extension119K$0.238M
    Post-training5K$0.01M
    합계2,788K$5.576M
    • 1T 토큰 학습: 180K H800 GPU hours (2,048 GPU 클러스터에서 3.7일)
    • 전체 학습 과정에서 복구 불가능한 손실 스파이크 0건, 롤백 0회

    비용 비교 (추정):

    • GPT-4: ~$100M+ (추정)
    • LLaMA 3.1 405B: ~$30M+ (추정)
    • DeepSeek-V3: $5.576M → 비용 효율 10-20×

    3.11 추론 배치

    Prefilling (최소 단위: 4 노드, 32 GPU):

    • Attention: TP4 + Sequence Parallelism + DP8
    • MoE: EP32, 32개 중복 전문가
    • 온라인 통계 기반 전문가 복제로 로드 밸런싱

    Decoding (최소 단위: 40 노드, 320 GPU):

    • Attention: TP4 + Sequence Parallelism + DP80
    • MoE: EP320, GPU당 1 전문가, 64 GPU는 중복/공유 전문가
    • InfiniBand point-to-point 전송 + IBGDA 기술

    3.12 벤치마크 결과

    Base Model 비교

    Pile-test (BPB)0.6060.6380.5420.548
    BBH (EM)78.879.882.987.5
    MMLU (Acc.)78.485.084.487.1
    MMLU-Pro (Acc.)51.458.352.864.4
    DROP (F1)80.480.686.089.0
    HumanEval (Pass@1)43.353.054.965.2
    MATH (EM)43.454.449.061.6

    Chat Model 비교 (>67B)

    MMLU (EM)80.685.388.688.387.288.5
    DROP (3-shot F1)87.876.788.788.383.791.6
    HumanEval-Mul77.477.377.281.780.582.6
    Codeforces (%ile)35.624.825.320.323.651.6
    MATH-500 (EM)74.780.073.878.374.690.2
    CNMO 202410.815.96.813.110.843.2

    Open-Ended 생성

    Qwen2.5-72B81.249.1
    LLaMA3.1 405B69.340.5
    GPT-4o80.451.1
    Claude-3.5-Sonnet85.252.0
    DeepSeek-V385.570.0

    3.13 Post-training 파이프라인

    1. Supervised Fine-Tuning (SFT):
      • Reasoning 데이터: R1 모델로 rejection sampling 생성
      • Non-reasoning 데이터: DeepSeek-V2.5 + 인간 검증
    2. Reinforcement Learning:
      • 알고리즘: GRPO (별도 critic 불필요)
      • Rule-based rewards: 수학, 코딩 (정확도 검증)
      • Model-based rewards: 인간 선호도 주석

    3.14 Insight: $5.576M이 AI 산업에 던진 충격파

    V3의 학습 비용 $5.576M은 AI 업계의 상식을 뒤흔든 숫자다. GPT-4의 추정 학습 비용이 $100M 이상, LLaMA 3.1 405B가 $30M 이상으로 추정되는 상황에서, 671B 파라미터의 프론티어급 모델을 $5.576M에 학습시켰다는 것은 "프론티어 AI에는 프론티어급 예산이 필요하다"는 통념을 깨뜨렸습니다.
    이 비용 효율은 단일 기술이 아니라 완결된 엔지니어링 스택의 결과입니다. Auxiliary-loss-free 밸런싱은 보조 손실로 인한 성능 저하를 제거하여 동일 학습량에서 더 높은 품질을 달성했고, FP8 학습은 메모리와 연산 양쪽을 절감하면서도 학습 안정성을 유지했습니다. DualPipe는 파이프라인 버블을 최소화하여 GPU 활용률을 극대화했습니다. 이 세 혁신이 맞물려 "14.8T 토큰, 2,048 H800 GPU, 복구 불가능한 손실 스파이크 0건, 롤백 0회"라는 전례 없는 학습 안정성을 달성했습니다.
    V3가 증명한 것은 대규모 모델 학습의 접근성 민주화입니다. 이 결과는 직접적으로 Kimi K2, Qwen3-MoE, Hunyuan-Large 등 오픈 MoE 모델의 물결을 촉발했으며, 소수의 빅테크만 가능하다고 여겨졌던 프론티어 모델 학습이 더 넓은 연구 커뮤니티에도 가능하다는 것을 실증했습니다.


    4. DeepSeek-R1 (2025.01) — 추론 특화

    논문: "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" (arXiv:2501.12948)
    Nature vol. 645, pp. 633-638 (2025) 게재

    4.1 기반 모델

    • DeepSeek-V3-Base (671B/37B MoE)를 기반으로 구축
    • V3의 MoE 아키텍처를 그대로 활용 (수정 없음)

    4.2 DeepSeek-R1-Zero: 순수 RL 접근

    • SFT 없이 순수 강화학습만으로 추론 능력 발현
    • AIME 2024: 15.6% → 71.0% (pass@1), majority voting 시 86.7%
    • 자발적으로 발현된 능력:
      • Self-reflection (자기 반성)
      • Verification (검증)
      • Dynamic strategy adaptation (동적 전략 조정)

    4.3 GRPO 알고리즘

    Group Relative Policy Optimization:

    J_GRPO(θ) = E[1/G × Σᵢ (min(π_θ(oᵢ|q) / π_θ_old(oᵢ|q) × Aᵢ, clip(...)) - β · D_KL(π_θ ∥ π_ref))]

    Advantage 계산:

    Aᵢ = (rᵢ - mean(rewards)) / std(rewards)
    • 질문당 G개 출력에 대해 그룹 내 상대적 보상으로 advantage 계산
    • 별도 critic/value 모델 불필요 → 메모리 효율적

    4.4 4단계 학습 파이프라인

    Stage 1: Cold Start

    • 수천 개의 cold-start 데이터로 V3-Base fine-tuning
    • 읽기 쉬운 형식: 추론 과정 + 요약
    • Few-shot prompting + 상세 지시 프롬프트 + R1-Zero 출력 후처리 + 인간 주석 정제

    Stage 2: Reasoning-Oriented RL

    • 수학, 코딩, 과학 태스크에 대한 대규모 RL
    • Language consistency reward: 언어 혼합 최소화
    • 보상 타입:
      • 정확도 보상: Rule-based (수학: 정답 형식 검증, 코딩: 컴파일러 테스트 케이스)
      • 형식 보상: <think>...</think> 태그 내 추론 강제

    Stage 3: Rejection Sampling & SFT

    • ~600K reasoning 샘플 생성 (rejection sampling)
    • ~200K non-reasoning 샘플 (writing, QA, translation 등, V3 파이프라인)
    • 800K 샘플로 2 epoch fine-tuning

    Stage 4: All-Scenario RL

    • Rule-based rewards (추론) + Preference models (helpfulness/harmlessness) 결합
    • 모든 시나리오에 대한 일반화 RL

    4.5 실패한 시도

    1. Process Reward Models (PRM): 세밀한 단계 정의 어려움, 정답 판별 난이도, reward hacking
    2. Monte Carlo Tree Search (MCTS): 토큰 생성 검색 공간 기하급수적, value model 학습 복잡도

    4.6 Distillation (증류)

    R1의 800K 샘플로 소형 모델 fine-tuning (SFT only, RL 미적용):

    Qwen2.5-Math 1.5BR1-Distill-Qwen-1.5B
    Qwen2.5-Math 7BR1-Distill-Qwen-7B
    Qwen2.5-Math 14BR1-Distill-Qwen-14B
    Qwen2.5 32BR1-Distill-Qwen-32B
    Llama-3.1 8BR1-Distill-Llama-8B
    Llama-3.3 70BR1-Distill-Llama-70B

    4.7 학습 구성

    항목
    응답 템플릿 <think>reasoning</think> <answer>answer</answer>
    최대 생성 길이 32,768 tokens
    Sampling temperature 0.6
    Top-p 0.95
    Pass@k 평가 k=4-64 (데이터셋별)
    Majority voting 64 samples (AIME용)

    4.8 벤치마크 결과

    DeepSeek-R1 vs OpenAI o1

    AIME 2024 (pass@1)79.8%79.2%63.6%
    AIME (cons@64)82.8%-80.0%
    MATH-50097.3%96.4%90.0%
    GPQA Diamond71.5%75.7%60.0%
    LiveCodeBench65.9%63.4%53.8%
    Codeforces Rating2,0292,0611,820
    MMLU90.8%91.8%85.2%
    MMLU-Pro84.0%-80.3%
    C-Eval91.8%-68.9%
    SWE-Bench Verified49.2%48.9%41.6%
    AlpacaEval 2.0 (LC)87.6%-57.8%
    ArenaHard92.3%-92.0%

    증류 모델 성능

    R1-Distill-Qwen-7B55.5%92.8%49.1%
    R1-Distill-Qwen-14B69.7%93.9%59.1%
    R1-Distill-Qwen-32B72.6%94.3%62.1%
    R1-Distill-Llama-70B70.0%94.5%65.2%
    QwQ-32B-Preview50.0%90.6%54.5%
    o1-mini63.6%90.0%60.0%

    핵심 결과: 7B 증류 모델이 QwQ-32B-Preview를 전 벤치마크에서 초과

    4.9 Insight: MoE는 추론 특화의 이상적 기반 아키텍처

    R1이 증명한 가장 심오한 사실은 MoE 아키텍처가 사전학습 효율성뿐 아니라 추론 특화를 위한 이상적 기반이라는 점입니다. Dense 모델에서는 모든 파라미터가 모든 입력에 대해 동일하게 활성화되지만, MoE에서는 입력의 성격에 따라 서로 다른 전문가 조합이 동적으로 선택된다. 이 속성은 RL 기반 추론 학습과 만날 때 특별한 시너지를 발생시킵니다.
    수학 문제를 풀 때와 코드를 작성할 때, 또는 창의적 글쓰기를 할 때 모델이 필요로 하는 능력은 근본적으로 다릅니다. R1의 4단계 RL 파이프라인은 이러한 다양한 추론 시나리오 각각에 대해 최적의 전문가 조합을 학습시키는 과정이며, 결과적으로 어려운 문제에 더 많은 연산을 동적으로 할당하는 효과를 만듭니다. R1-Zero에서 SFT 없이 순수 RL만으로 self-reflection, verification, dynamic strategy adaptation이 자발적으로 출현한 것은 MoE의 조합적 표현력이 RL의 탐색 공간과 결합하면서 창발적 추론 능력이 발현된 것으로 해석할 수 있습니다.
    에이전트는 단일 작업이 아니라 계획 수립, 도구 사용, 오류 복구, 사용자 의도 파악 등 이질적 능력의 동적 결합을 필요로 합니다. Sparse expert routing이 제공하는 조합적 유연성은 다양한 기능을 하나의 모델 안에서 효율적으로 구현하는 데 적합한 구조입니다. R1 이후 Kimi K2 등의 에이전트 특화 MoE 모델이 등장으로 이어졌습니다.


    5. 아키텍처 진화 요약

    5.1 DeepSeekMoE → V2 → V3 → R1 진화 테이블

    총 파라미터16.4B236B671B671B (V3 기반)
    활성 파라미터2.8B21B37B37B
    라우팅 전문가64160256256
    공유 전문가2211
    활성 라우팅 전문가6688
    게이트 함수SoftmaxSoftmaxSigmoidSigmoid
    로드 밸런싱Aux LossAux LossBias TermBias Term
    어텐션MHAMLAMLAMLA
    KV 캐시 압축-93.3%93.3%93.3%
    학습 데이터2T8.1T14.8TV3+RL
    학습 정밀도BF16BF16FP8FP8
    컨텍스트-128K128K128K
    MTP--Yes (D=1)Yes
    RL-GRPOGRPOGRPO (4-stage)
    학습 비용--$5.576M+RL비용

    5.2 각 세대의 핵심 기여

    DeepSeekMoEFine-grained expert segmentation + Shared expert isolation
    V2Multi-Head Latent Attention (MLA) → KV 캐시 93.3% 감소
    V3Aux-loss-free balancing + MTP + FP8 학습 + DualPipe
    R1순수 RL 기반 추론 능력 발현 + 4-stage 학습 + 증류

    5.3 핵심 수식 총정리

    [1] Fine-grained MoE 출력:
        hₜˡ = Σ(i=1→Kₛ) FFNᵢ(uₜˡ) + Σ(i=Kₛ+1→mN) (gᵢ,ₜ · FFNᵢ(uₜˡ)) + uₜˡ
    
    [2] MLA KV 압축:
        cₜᴷⱽ = Wᴰᴷⱽ · hₜ         (d → d_c = 512)
        kₜᶜ = Wᵁᴷ · cₜᴷⱽ          (d_c → nₕ × dₕ)
        vₜᶜ = Wᵁⱽ · cₜᴷⱽ          (d_c → nₕ × dₕ)
    
    [3] V3 Sigmoid Gating:
        sᵢ,ₜ = Sigmoid(uₜᵀ · eᵢ)
    
    [4] Aux-Loss-Free Routing:
        g'ᵢ,ₜ = sᵢ,ₜ if (sᵢ,ₜ + bᵢ) ∈ TopK({sⱼ,ₜ + bⱼ})
        Bias update: bᵢ ← bᵢ ± γ  (γ = 0.001)
    
    [5] MTP Loss:
        L_MTP = (λ/D) × Σₖ CrossEntropy(Pᵏ, t)  (λ = 0.3→0.1)
    
    [6] GRPO Advantage:
        Aᵢ = (rᵢ - mean(r)) / std(r)

    References

    댓글

ABOUT ME

🎓 부산대학교 정보컴퓨터공학과 학사: 2017.03 - 2023.08
☁️ Rakuten Symphony Jr. Cloud Engineer: 2024.12.09 - 2025.08.31
🏆 2025 AI 새싹톤 우수상 수상: 2025.10.30 - 2025.12.02
🌏 이코에코(Eco²) 백엔드/인프라 고도화 중: 2025.12 - Present

Designed by Mango