ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Kimi K2 / K2.5 Technical Report: Agentic Intelligence의 초안
    Knowledge Base/Reports 2026. 2. 26. 04:06

    Date: 2026-02-26
    Author: Claude Code Opus 4.6, mangowhoiscloud
    분석 관점: 에이전트 아키텍처, 멀티 에이전트 오케스트레이션, 캘리브레이션, 평가 체계
    대상 논문:

    • Kimi K2: Open Agentic Intelligence (arXiv:2507.20534, 2025-07)
    • Kimi K2.5: Visual Agentic Intelligence (arXiv:2602.02276, 2026-02)

    목차

    1. 논문 개요 및 포지셔닝
    2. K2: MoE 아키텍처와 Agentic 학습
    3. K2.5: Visual Agentic Intelligence와 Agent Swarm
    4. 에이전트 학습 파이프라인 비교 분석
    5. 강화학습과 캘리브레이션
    6. 벤치마크 분석: Agentic 역량 중심
    7. GEODE/LLMART 시스템과의 교차 인사이트
    8. 핵심 테이크어웨이

    1. 논문 개요 및 포지셔닝

    Kimi K2 (2025-07)

    Kimi Team(199+ 연구자)이 발표한 오픈소스 MoE(Mixture-of-Experts) 대규모 언어 모델입니다. "Open Agentic Intelligence" 라는 부제가 시사하듯, 단순한 LLM 성능 향상이 아니라 에이전트 태스크에서의 실행 역량을 핵심 목표로 설정한 논문입니다.

    항목 수치
    총 파라미터 1.04T (1조)
    활성 파라미터/토큰 32.6B
    전문가(Expert) 수 384개 (토큰당 8개 활성)
    사전학습 토큰 15.5T
    Transformer 레이어 61
    컨텍스트 윈도우 128K (YaRN 확장)

    Kimi K2.5 (2026-02)

    K2를 기반으로 시각(Vision) 모달리티를 통합하고, Agent Swarm 프레임워크를 도입한 멀티모달 에이전트 모델입니다. 325+ 연구자와 K2 모델이 참여했으며, "Visual Agentic Intelligence"라는 부제에서 알 수 있듯이, 시각 정보를 활용한 에이전트 실행(Computer Use, GUI Agent)에 중점을 둡니다.

    두 논문의 관계

    K2 (Text-Only Agentic)
      │
      ├── MoE 아키텍처 (384 Expert, 32B Active)
      ├── MuonClip 옵티마이저
      ├── Agentic Data Synthesis (3-Stage)
      └── RL with Verifiable Rewards
            │
            ▼
    K2.5 (Multimodal Agentic)
      │
      ├── K2 체크포인트 기반 계속 학습
      ├── MoonViT-3D 비전 인코더 추가
      ├── Zero-Vision SFT (텍스트만으로 비전 활성화)
      ├── Joint Multimodal RL
      └── Agent Swarm (병렬 멀티 에이전트 오케스트레이션)

    K2가 에이전트의 기본 역량(Tool Use, 코딩, 멀티턴 대화)을 구축했다면, K2.5는 여기에 시각적 이해 + 병렬 에이전트 오케스트레이션을 추가하여 실세계 에이전트 시스템의 완성도를 높인 구조입니다.


    2. K2: MoE 아키텍처와 Agentic 학습

    2.1 MoE 설계 철학: 높은 희소성(Sparsity)의 경제성

    K2의 MoE 아키텍처는 DeepSeek-V3 대비 더 많은 전문가(384 vs 256), 더 높은 희소성(48 vs 32)을 선택했습니다. 이 설계의 핵심 근거는 희소성 스케일링 법칙(Sparsity Scaling Law) 실험에서 도출됩니다.

    활성 파라미터를 고정한 상태에서 총 전문가 수를 변화시킨 실험:
    
    검증 손실 1.5 기준 FLOPs 절감:
      Sparsity 48 vs Sparsity 8:  1.69× 절감
      Sparsity 48 vs Sparsity 16: 1.39× 절감
      Sparsity 48 vs Sparsity 32: 1.15× 절감
    
    → 희소성과 손실 간 일관된 역관계 확인

    이 결과는 에이전트 태스크의 경제성과 직결됩니다. 에이전트는 멀티턴 대화에서 수십~수백 번의 LLM 호출이 필요하므로, 추론 비용이 총 비용의 대부분을 차지합니다. 높은 희소성(토큰당 32B만 활성화)으로 추론 비용을 낮추면서도 1T 파라미터의 지식 용량을 유지하는 것이 K2의 아키텍처 전략입니다.

    2.2 어텐션 헤드 축소 결정

    K2는 DeepSeek-V3의 128개에서 64개로 어텐션 헤드를 절반으로 줄였습니다. 그 근거가 흥미롭습니다.

    어텐션 헤드 64→128 증가 시:
      검증 손실 개선: 0.5% ~ 1.2%
      추론 FLOPs 증가 (128K 컨텍스트): +83%
    
    → 에이전트 애플리케이션에서 장문 컨텍스트 효율이 우선

    에이전트가 Tool Use, 코드 실행, 멀티턴 대화를 수행할 때 컨텍스트 길이가 빠르게 증가하므로, 장문 컨텍스트에서의 추론 효율이 미미한 성능 개선보다 중요하다는 판단입니다. 이는 "에이전트 우선(Agent-First)" 아키텍처 설계 철학을 명확히 보여줍니다.

    2.3 MuonClip 옵티마이저: 학습 안정성

    K2의 학습 안정성을 담보하는 핵심 혁신은 MuonClip입니다. Muon 옵티마이저를 대규모 MoE에 적용할 때 발생하는 "어텐션 로짓 폭발(exploding attention logits)" 문제를 QK-Clip 메커니즘으로 해결했습니다.

    QK-Clip 작동 원리:

    1. 각 어텐션 헤드의 최대 로짓 계산:
       S_max^h = (1/√d) × max(Q·K^T)   (배치, 토큰 위치 전체)
    
    2. 임계값 τ=100 초과 시 스케일링:
       γ_h = min(1, τ / S_max^h)
    
    3. 적용:
       헤드별 Query/Key: √γ_h 스케일링
       헤드별 Rotary: γ_h 스케일링
       공유 Rotary: 변경 없음 (헤드 간 교차 효과 방지)

    9B/53B 규모의 중간 스케일 실험에서 바닐라 Muon의 최대 로짓이 1000을 초과하며 학습이 불안정해진 반면, MuonClip은 로짓을 100으로 신속히 제한한 뒤 약 30%의 학습 스텝에 걸쳐 안정적 범위로 점진 감쇠했습니다. 결과적으로 15.5T 토큰의 전체 사전학습에서 손실 스파이크가 한 번도 관측되지 않았습니다.

    2.4 Agentic 데이터 합성 파이프라인 (3-Stage)

    K2의 에이전트 역량 학습에서 가장 핵심적인 기여는 체계적 에이전트 학습 데이터 합성 파이프라인입니다. 3단계로 구성됩니다.

    Stage 1: Tool Spec 생성

    실제 MCP(Model Context Protocol) 도구: GitHub에서 3,000+개 수집
    합성 도구: 계층적 도메인 진화로 20,000+개 생성
      금융 거래 → 주식 매매 API → 옵션 가격 계산 도구
      소프트웨어 → CI/CD → 테스트 자동화 도구
      로봇 제어 → 모션 플래닝 → 경로 최적화 도구

    실제 MCP 도구를 Seed로 사용하고, 계층적으로 도메인을 확장하여 합성 도구를 생성하는 방식은 도구 다양성의 커버리지를 체계적으로 보장합니다.

    Stage 2: 에이전트 & 태스크 생성

    수천 개의 고유한 에이전트를 다양한 시스템 프롬프트와 도구 조합으로 생성합니다. 루브릭 기반 태스크 생성으로 성공 기준과 평가 체크포인트를 명시합니다.

    Stage 3: 멀티턴 궤적(Trajectory) 생성

    LLM 생성 페르소나 기반 사용자 시뮬레이션
      │
      ▼
    도구 실행 환경 (상태 추적 시뮬레이터)
      │  현실적 피드백: 성공, 부분 실패, 엣지 케이스
      ▼
    LLM 기반 Judge → 루브릭 대비 평가
      │
      ▼
    성공 기준 충족 궤적만 유지 (대규모 Rejection Sampling)

    중요한 것은 하이브리드 실행 환경입니다:

    • 시뮬레이션 환경: 스케일과 다양성 커버리지
    • 실제 실행 샌드박스: 코딩/SW 태스크에 Kubernetes 인프라(10,000+ 동시 인스턴스)로 실제 테스트 스위트 통과율 기반 피드백

    이 하이브리드 접근은 "시뮬레이션의 규모 + 실행의 정확성"을 동시에 확보하는 전략으로, GEODE의 시뮬레이션(합성 데이터) + 실제 환경(Outcome Tracking) 이중 구조와 유사한 철학입니다.


    3. K2.5: Visual Agentic Intelligence와 Agent Swarm

    3.1 Joint Text-Vision Pre-Training

    K2.5의 첫 번째 핵심 혁신은 기존 상식을 뒤집는 멀티모달 사전학습 전략입니다.

    기존 접근법은 텍스트 학습 후반에 높은 비율로 비전 토큰을 주입하는 것이었으나, K2.5의 Ablation Study는 정반대 결과를 보여줍니다.

    고정 총 비전-텍스트 토큰 예산 하에서:
    
                        Vision   Vision   OCR    Text
                        Knowledge Reasoning       Knowledge
    Early + Low(10:90)   25.8     43.8    65.7   45.5    ← 최고
    Mid + Med(20:80)     25.0     40.7    64.1   43.9
    Late + High(50:50)   24.2     39.0    61.5   43.1    ← 최저
    
    → "조기 융합(Early Fusion) + 낮은 비전 비율"이 최적

    이 발견의 의미는 다음과 같습니다. 텍스트와 비전의 정렬(alignment)은 학습 초기에 확립되어야 하며, 비전 데이터의 양보다 텍스트-비전 간 상호 강화(mutual enhancement) 기간이 더 중요하다는 것입니다.

     

    사전학습 파이프라인 (15T 토큰):

    Stage 토큰 컨텍스트 내용
    Stage 1 ViT Training 1T 4096 이미지-텍스트/비디오-텍스트 쌍, MoonViT-3D 정렬
    Stage 2 Joint PT 15T 4096 K2 체크포인트 기반, 코딩 데이터 강화
    Stage 3 Long-Context 500B→200B 32K→262K YaRN 보간, 장문 비디오 이해

    3.2 MoonViT-3D: 네이티브 해상도 비전 인코더

    K2.5의 비전 인코더 MoonViT-3D는 세 가지 핵심 특성을 가집니다:

    1. 네이티브 해상도 처리: 이미지를 원본 해상도 그대로 처리하여 서브이미지 분할/합성 불필요
    2. NaViT 패킹: 패치를 1D 시퀀스로 평탄화하여 가변 해상도 지원
    3. 비디오 처리: 4프레임 그룹핑 → 공유 인코더 → 시간축 평균 → 4× 시간 압축으로 긴 비디오 처리

    이미지와 비디오 인코더 간 완전한 가중치 공유로, 이미지 사전학습에서 얻은 지식이 비디오로 온전히 전이됩니다.

    3.3 Zero-Vision SFT: 텍스트만으로 비전 역량 활성화

    K2.5의 가장 놀라운 발견 중 하나입니다.

    문제: 사전학습된 VLM은 비전 기반 Tool Calling을 자연스럽게 수행하지 못합니다(Cold-Start 문제). 전통적으로는 수동 주석된 Chain-of-Thought 비전 데이터가 필요하지만, 다양성이 제한적입니다.

    해결책: 텍스트 SFT 데이터만으로 비전 + 에이전트 역량을 활성화합니다.

    Zero-Vision SFT:
      텍스트 SFT 데이터만 사용
        │
        ▼
      IPython 프로그래밍 연산으로 이미지 조작을 프록시
        │  (이진화, 카운팅을 통한 객체 크기 추정 등)
        ▼
      비전 기반 태스크로 자연 일반화
        (객체 위치 추정, 카운팅, OCR)

    Joint Pretraining에서 확립된 강력한 비전-텍스트 정렬 덕분에, 텍스트 도메인에서 학습한 역량이 비전 도메인으로 자연스럽게 일반화됩니다.

    실험 결과, Zero-Vision SFT가 Text-Vision SFT보다 더 나은 성능을 보였습니다. 고품질 비전 SFT 데이터의 부족이 원인으로 추정됩니다. 더 나아가, 비전 RL FLOPs를 스케일링할수록 성능이 지속 향상되어, "Zero-Vision 활성화 + 장기 RL"이 견고한 비전 역량 확보에 충분함을 입증했습니다.

    3.4 Agent Swarm 프레임워크

    K2.5의 에이전트 오케스트레이션 지원 기능인 Agent Swarm입니다. 복잡한 태스크를 병렬 서브태스크로 분해하고 동시 실행하는 멀티 에이전트 오케스트레이션 프레임워크입니다.

    아키텍처 설계

    ┌────────────────────────────────────┐
    │         Orchestrator (학습 가능)      │
    │  동적 태스크 분해, 서브에이전트 생성/스케줄 │
    │  RL로 최적화                          │
    └───────┬──────────┬──────────┬──────┘
            │          │          │
       ┌────▼────┐ ┌───▼────┐ ┌──▼─────┐
       │Subagent │ │Subagent│ │Subagent│  ← 모두 Frozen
       │ (검색)  │ │(분석)  │ │(코딩)  │
       │ 로컬 ctx│ │로컬 ctx│ │로컬 ctx│
       └────┬────┘ └───┬────┘ └──┬─────┘
            │          │          │
            └──────────▼──────────┘
               Orchestrator에 선택적 반환
               (전체 궤적이 아닌 태스크 관련 출력만)

    핵심 설계 결정:

    1. Orchestrator만 학습, Subagent는 Frozen: 고정 중간 정책 체크포인트에서 인스턴스화된 서브에이전트를 동결합니다. 이 결합 해제(decoupled) 설계는 End-to-End 공동 최적화의 크레딧 할당 모호성학습 불안정성을 우회합니다.
    2. 서브에이전트 출력을 환경 관찰로 취급: 서브에이전트의 실행 궤적은 최적화에서 제외됩니다. "서브에이전트를 동결하고 출력을 미분 가능한 결정점이 아닌 환경 관찰로 처리함으로써, 고수준 조정 로직과 저수준 실행 숙련도를 분리합니다."
    3. 동적 이종(heterogeneous) 에이전트 생성: 사전 정의된 에이전트가 아니라, Orchestrator가 진화하는 태스크 구조와 문제 상태에 반응하여 적응적으로 서브에이전트를 생성합니다. "이종 에이전트 그룹이 이 적응적 할당 전략에서 유기적으로 출현합니다."

    PARL (Parallel-Agent Reinforcement Learning)

    Agent Swarm의 학습은 PARL 보상 함수로 이루어집니다:

    r_PARL(x,y) = λ₁·r_parallel + λ₂·r_finish + r_perf(x,y)
    보상 항 역할 방지하는 문제
    r_parallel 인스턴스화 보상 Serial Collapse — 단일 에이전트 실행으로의 퇴행
    r_finish 서브에이전트 완료율 Spurious Parallelism — 의미 없는 대량 서브에이전트 생성
    r_perf 태스크 수준 성과 핵심 목적 함수

    하이퍼파라미터 어닐링: λ₁, λ₂는 학습 과정에서 점진적으로 0으로 감쇠합니다. 초기에는 병렬화 습관을 형성하고, 후기에는 순수한 태스크 성과만 최적화하여 최종 정책이 보조 보상에 의존하지 않도록 합니다.

    Critical Steps 메트릭

    Agent Swarm은 총 스텝 수 대신 Critical Steps(계산 그래프의 임계 경로에 해당)를 사용합니다:

    CriticalSteps = Σ_t (S_main^(t) + max_i S_sub,i^(t))
    
                         Stage 1          Stage 2
                      ┌──────────┐    ┌──────────┐
    Orchestrator:     │ S_main¹  │    │ S_main²  │
                      └────┬─────┘    └────┬─────┘
                           │               │
    Sub1:              ████████ (8)     ███ (3)
    Sub2:              ████ (4)         ████████████ (12)  ← max
    Sub3:              ██████ (6)       █████ (5)
    
    CriticalSteps = (S_main¹ + 8) + (S_main² + 12)
    
    → 가장 긴 병렬 브랜치가 Wall-Clock 시간을 결정
    → "균형 잡힌 태스크 분해가 가장 긴 병렬 브랜치를 단축하면
       Critical Steps가 직접 감소"

     

    이 메트릭의 의미: Orchestrator는 단순히 동시성(concurrency)이나 총 작업량을 최대화하는 것이 아니라, End-to-End 레이턴시를 최소화하는 방향으로 작업을 분배하도록 유도됩니다.

    Context Sharding vs. Context Truncation

    Agent Swarm의 또 다른 핵심 혁신은 선제적(proactive) 컨텍스트 관리입니다.

    접근법 방식 한계
    반응적 (Hide-Tool-Result, Summary, Discard-All) 컨텍스트 오버플로에 대응하여 압축/삭제 구조 정보 손실, 중간 추론 유실
    선제적 Agent Swarm 장기 태스크를 의미적으로 격리된 병렬 서브태스크로 분해, 각 서브에이전트가 제한된 로컬 컨텍스트에서 실행 태스크 수준 일관성 유지

    "장기 태스크가 병렬, 의미적으로 격리된 서브태스크로 분해되어 각각 제한된 로컬 컨텍스트의 전문 서브에이전트에서 실행됩니다. 전체 상호작용 추적이 아닌 태스크 관련 출력만이 선택적으로 Orchestrator에 라우팅됩니다." 이 설계는 Context Sharding(컨텍스트 분할)이라는 개념으로, Context Truncation(컨텍스트 절단)과 근본적으로 다릅니다.


    4. 에이전트 학습 파이프라인 비교 분석

    K2의 에이전트 학습

    Phase 1: SFT (Supervised Fine-Tuning)
      │  대규모 지시 튜닝 데이터셋
      │  프롬프트 다양성 최대화 + 응답 품질 보장
      │  K1.5 + 도메인 전문 모델로 후보 응답 생성
      │  LLM + Human Judge 기반 품질 필터링
      │
      ▼
    Phase 2: RL (Reinforcement Learning)
      │  검증 가능 보상(Verifiable Rewards) 5개 범주:
      │    Math/STEM/Logic + Instruction Following
      │    + Faithfulness + Coding/SE + Safety
      │  자기 비평 루브릭 보상(Self-Critique Rubric Reward)
      │  폐쇄 루프 비평가 정제(Closed-Loop Critic Refinement)
      │
      ▼
    Phase 3: Agentic RL
         시뮬레이션 환경 + 실제 샌드박스 (K8s 10K+ 동시)
         3-Stage 데이터 합성 파이프라인
         루브릭 기반 Rejection Sampling

    K2.5의 에이전트 학습

    Phase 1: Joint Pre-Training
      │  텍스트 + 비전 토큰을 일정 비율로 혼합하여 전체 학습
      │  Early Fusion + Low Vision Ratio (10:90)
      │
      ▼
    Phase 2: Zero-Vision SFT
      │  텍스트 SFT 데이터만으로 비전 + 에이전트 역량 활성화
      │  IPython 프로그래밍 연산을 통한 비전 프록시
      │
      ▼
    Phase 3: Joint Multimodal RL
      │  입력 모달리티가 아닌 "역량" 기준으로 RL 도메인 조직
      │    Knowledge, Reasoning, Coding, Agentic...
      │  텍스트 + 멀티모달 쿼리에서 공동 학습
      │  Cross-Modal Transfer: 비전 RL → 텍스트 성능 향상
      │
      ▼
    Phase 4: Agent Swarm RL (PARL)
         Orchestrator만 학습, Subagent Frozen
         r_parallel + r_finish + r_perf 보상
         λ₁, λ₂ → 0 어닐링

    핵심 차이점

    관점 K2 K2.5
    에이전트 구조 단일 에이전트 멀티 에이전트 (Swarm)
    학습 대상 모델 전체 Orchestrator만 (Subagent Frozen)
    모달리티 텍스트 텍스트 + 비전
    비전 활성화 N/A Zero-Vision SFT (텍스트만으로)
    병렬성 단일 실행 동적 병렬 분해
    컨텍스트 관리 단일 윈도우 Context Sharding

    5. 강화학습과 캘리브레이션

    5.1 K2의 Self-Critique Rubric Reward

    검증 불가능한 주관적 영역(도움, 창의성, 추론 깊이, 사실성, 안전성)에서의 보상 신호를 위해, K2는 Self-Critiqued Policy Optimization을 사용합니다:

    K2 Actor → 응답 생성
                │
                ▼
    K2 Critic → 쌍별 비교(pairwise) 순위 매김
                │
                ▼
    루브릭 통합:
      Core Rubrics: 기본 어시스턴트 가치
      Prescriptive Rubrics: Reward Hacking 방지
      Human-Annotated Domain Rubrics: 도메인별 기준

    특히 중요한 것은 Closed-Loop Critic Refinement입니다: 검증 가능 보상 프롬프트의 On-Policy 롤아웃이 비평 모델을 지속적으로 업데이트하여, 주관적 판단을 객관적 성과 신호에 기반(grounding)시킵니다. "비평가가 정책의 진화와 보조를 맞추어 평가 기준을 지속적으로 재캘리브레이션합니다."

    5.2 K2.5의 토큰 효율적 RL: Toggle 알고리즘

    K2.5는 "Token Efficient Reinforcement Learning"을 위해 Toggle 알고리즘을 제안합니다.

    문제 인식: 엄격한 예산 제약 하에서 학습된 모델은 더 높은 컴퓨팅 스케일로 일반화하지 못합니다. 추가 추론 토큰을 효과적으로 활용하여 복잡한 문제를 해결할 수 없습니다.

    Toggle: m 반복마다 두 페이즈를 교대
    
    Phase 0 (Budget Limited):
      평균 정확도 > λ일 때 태스크별 토큰 예산 내에서 풀이
      예산 = Percentile({|y_j| | r(x,y_i)=1}, ρ)  (정답 응답 토큰 길이의 백분위)
    
    Phase 1 (Standard Scaling):
      최대 토큰 한도까지 응답 생성

    결과: 평균 25~30% 출력 토큰 감소, 성능 영향 무시 가능.

    5.3 K2.5의 Cross-Modal Transfer

    비전 RL이 텍스트 성능을 향상시키는 주목할 만한 결과:

    비전 RL 적용 후 텍스트 벤치마크 변화:
      MMLU-Pro:      84.7% → 86.4% (+1.7%)
      GPQA-Diamond:  84.3% → 86.4% (+2.1%)
      LongBench v2:  56.7% → 58.9% (+2.2%)

    비전 RL이 구조화된 정보 추출이 필요한 영역에서 캘리브레이션을 향상시킵니다. 시각적으로 기반된 추론(카운팅, OCR 등)과 유사한 쿼리에서 불확실성이 감소합니다. 이는 멀티모달 학습이 단순히 비전 역량 추가가 아니라 모델 전반의 캘리브레이션 향상에 기여한다는 중요한 발견입니다.

    5.4 K2.5의 Generative Reward Models (GRMs)

    K2.5는 이진 판정을 넘어 세분화된 평가를 제공하는 생성적 보상 모델을 사용합니다:

    도움, 응답 준비성, 맥락 관련성, 적절한 상세 수준, 생성 아티팩트의 미적 품질, 엄격한 지시 따르기 등 사용자 경험에 핵심적인 가치에 정렬된 평가자로 기능합니다. GRM은 대화 출력뿐 아니라 "광범위한 에이전트 행동과 멀티모달 궤적 전반"에 걸쳐 배포됩니다.


    6. 벤치마크 분석: Agentic 역량 중심

    6.1 K2 Agentic 벤치마크

    벤치마크 K2 비교 대상 의미
    τ2-Bench (전체) 66.1 멀티턴 Tool Calling 종합
    τ2-Bench retail 70.6 소매 도메인 도구 오케스트레이션
    τ2-Bench airline 56.5 항공 도메인 (가장 어려운 도메인)
    τ2-Bench telecom 65.8 통신 도메인
    ACEBench 76.5 에이전트 연속 평가
    SWE-Bench Verified (Agentic) 65.8 Claude 4 Opus 72.7 소프트웨어 엔지니어링
    SWE-Bench Verified (Multi) 71.6 다중 시도 + 내부 검증기

     

    K2는 오픈소스 모델로서 클로즈드소스(Claude 4 Opus)에 근접한 SWE-Bench 성능을 달성했습니다.

    특히 Multi-Attempt(71.6%)은 내부 검증기(verifier)를 활용한 결과로, 에이전트의 자기 검증 역량을 시사합니다.

    6.2 K2.5 Agentic 벤치마크 (Agent Swarm 포함)

    벤치마크 K2.5 Single K2.5 Swarm Claude 4.5 GPT-5.2 Gemini 3 Pro
    BrowseComp 60.6 78.4 37.0 65.8 37.8
    WideSearch 72.7 79.0 76.2 57.0
    DeepSearchQA 77.1 76.1 71.3 63.2
    OSWorld (Computer Use) 63.3 66.3
    WebArena (GUI) 58.9 63.4

    Agent Swarm의 효과:

    • BrowseComp: 60.6% → 78.4% (+17.8%p 절대 향상)
    • WideSearch: 72.7% → 79.0% (+6.3%p) + 레이턴시 3~4.5× 감소

    BrowseComp에서의 +17.8%p는 단일 에이전트 대비 멀티 에이전트 오케스트레이션의 압도적 우위를 보여줍니다. Claude 4.5(37.0%), GPT-5.2(65.8%) 모두 K2.5 Swarm에 크게 뒤처집니다.

    6.3 Computer Use 성능

    OSWorld-Verified (실제 컴퓨터 환경):
      K2.5:          63.3%
      Claude 4.5:    66.3%
      OpenAI Operator: 42.9%
      Qwen3-VL:      38.1%
    
    WebArena (GUI 웹 브라우징):
      K2.5:          58.9%
      Claude 4.5:    63.4%
      OpenAI Operator: 58.1%
      Qwen3-VL:      26.4%

    K2.5는 오픈소스 모델 중 압도적 1위이며, Claude 4.5에 3%p 이내로 근접합니다.

    6.4 레이턴시 개선 상세

    WideSearch 벤치마크에서 동일 성능 목표 도달까지의 실행 시간 비교:

    목표 Item-F1 대비 실행 시간 (단일 에이전트 기준 배수):
    
    30% 목표: Single ~1.8×  vs  Swarm ~0.6×  → 3.0× 빠름
    50% 목표: Single ~3.5×  vs  Swarm ~0.9×  → 3.9× 빠름
    70% 목표: Single ~7.0×  vs  Swarm ~1.6×  → 4.4× 빠름
    
    → 목표 성능이 높을수록 Swarm의 레이턴시 이점이 증대

    이는 복잡한 에이전트 태스크일수록 병렬 분해의 가치가 커진다는 것을 정량적으로 입증합니다.


    7. GEODE/LLMART 시스템과의 교차 인사이트

    7.1 Agent Swarm ↔ GEODE 멀티 에이전트 비교

    설계 요소 K2.5 Agent Swarm GEODE
    에이전트 구조 Orchestrator + 동적 Frozen Subagent Analysts×4 + Evaluators×3 + 인과추론
    역할 정의 동적 출현 (유기적) 사전 정의 (Rubric 기반)
    병렬화 PARL + Critical Steps Phase 내 병렬, Phase 간 순차
    독립성 보장 Frozen Subagent (환경 관찰 취급) Clean Context Injection
    컨텍스트 관리 Context Sharding (선제적) Clean Context (에이전트 간 점수 비공개)
    학습 Orchestrator RL 루브릭 기반 정적 설계

     

    핵심 차이: K2.5는 학습 기반 동적 에이전트 생성인 반면, GEODE는 도메인 전문성 기반 정적 에이전트 설계입니다. GEODE의 4+3+1+1 에이전트는 IP 평가라는 특정 도메인에 최적화된 전문가 패널이고, K2.5의 Subagent는 범용 태스크에 적응하는 동적 워커입니다.

    7.2 Frozen Subagent ↔ Clean Context Injection

    K2.5의 "Subagent를 Frozen하여 환경 관찰로 취급"하는 설계와 GEODE의 "Clean Context로 Analysts 간 점수 비공개"는 동일한 문제를 다른 방식으로 해결합니다:

    • K2.5: Subagent의 출력이 Orchestrator의 학습 그래디언트에 영향을 미치지 않도록 계산적으로 격리
    • GEODE: Analyst가 다른 Analyst의 점수를 보지 못하도록 정보적으로 격리 (앵커링 편향 차단)

    양쪽 모두 "에이전트 간 간섭을 차단하여 각자의 역할에 충실하게 만든다"는 동일한 원칙에 기반합니다.

    7.3 Self-Critique ↔ BiasBuster

    K2의 Self-Critique Rubric Reward와 GEODE의 BiasBuster는 유사한 역할을 합니다:

    관점 K2 Self-Critique GEODE BiasBuster
    목적 주관적 영역의 보상 캘리브레이션 LLM-as-Judge 편향 검증
    방법 모델이 자신의 출력을 순위 매김 4-Step 검증 (확증·최근성·앵커링·종합)
    그라운딩 검증 가능 보상으로 비평가 재캘리브레이션 G3 Ground Check + 실제 데이터 대조
    루프 Closed-Loop Critic Refinement CUSUM Drift + Feedback Loop

    7.4 Critical Steps ↔ Pipeline Funnel

    K2.5의 Critical Steps 메트릭은 LLMART의 파이프라인 퍼널 설계와 유사한 비용-성능 최적화 사고방식을 공유합니다:

    • K2.5: 가장 긴 병렬 브랜치가 전체 레이턴시를 결정 → 균형 분배로 Critical Path 단축
    • LLMART: 600K→5K→500→100→~30 퍼널에서 앞 단계의 비용 효율적 필터링으로 뒷 단계의 고비용 평가를 최소화

    양쪽 모두 "전체 시스템의 병목을 식별하고, 그 병목을 최소화하는 방향으로 설계"합니다.

    7.5 PARL 보상 어닐링 ↔ Phase Weight Learning

    K2.5의 λ₁, λ₂를 학습 중 0으로 어닐링하는 전략은 LLMART의 Phase Weight Learning과 유사한 철학을 가집니다:

    • K2.5: 초기에는 보조 보상(병렬화 유도)이 필요하지만, 학습이 진행되면 순수 태스크 보상만으로 충분
    • LLMART: Phase 0(Cold Start)에서 MaxEnt 균일 가중치 → Phase 2-3에서 데이터 기반 학습 가중치

    양쪽 모두 "초기 불확실성 하에서는 보수적/보조적 신호에 의존하고, 충분한 데이터/경험이 쌓이면 본질적 신호로 전환"하는 전략입니다.


    8. Take-away

    8.1 아키텍처 인사이트

    1. 높은 희소성 MoE는 에이전트에 최적: 토큰당 비용을 줄이면서 지식 용량을 유지하는 것이 멀티턴 에이전트의 경제성을 결정합니다. K2의 384 Expert / 8 Active (Sparsity 48) 설계가 이를 입증했습니다.
    2. 어텐션 헤드 수는 장문 컨텍스트 효율과 트레이드오프: 에이전트가 128K 컨텍스트를 사용하는 시나리오에서, 미미한 성능 개선(0.5-1.2%)을 위해 추론 FLOPs를 83% 증가시키는 것은 비합리적입니다.

    8.2 학습 인사이트

    1. Zero-Vision SFT의 시사점: 강력한 텍스트-비전 정렬이 확보되면, 텍스트 데이터만으로 비전 역량이 활성화됩니다. 이는 고품질 SFT 데이터 부족 문제를 우회하는 실용적 전략입니다.
    2. Cross-Modal Transfer는 실재합니다: 비전 RL이 텍스트 벤치마크를 1.7~2.2% 향상시키는 결과는, 멀티모달 학습이 "비전을 추가"하는 것이 아니라 "모델 전반을 개선"하는 것임을 시사합니다.
    3. Toggle 알고리즘 — 토큰 효율과 스케일링의 양립: 25~30% 토큰 절감을 성능 손실 없이 달성한 것은 에이전트 시스템의 운영 비용을 직접적으로 낮춥니다.

    8.3 멀티 에이전트 인사이트

    1. Orchestrator-Only Learning의 합리성: 전체 에이전트를 End-to-End로 학습하면 크레딧 할당 모호성과 학습 불안정성이 발생합니다. Orchestrator만 학습하고 Subagent를 환경으로 취급하는 것은 확장 가능한 멀티 에이전트 학습 패러다임입니다.
    2. Context Sharding > Context Truncation: 반응적 컨텍스트 관리(요약, 삭제)가 아닌, 선제적 컨텍스트 분할이 장기 태스크에서 구조적 정보를 보존합니다.
    3. PARL의 보상 설계 — Serial Collapse와 Spurious Parallelism 양쪽을 방지: 병렬화가 너무 적은 것(Serial Collapse)과 너무 많은 것(Spurious Parallelism) 사이의 균형을 보상 함수로 제어하는 것은 멀티 에이전트 시스템의 보편적 과제입니다.

    8.4 평가 인사이트

    1. BrowseComp에서의 +17.8%p: Agent Swarm이 단일 에이전트 대비 가장 큰 성능 향상을 보인 벤치마크가 복잡한 브라우징 태스크입니다. 이는 검색과 탐색이 핵심인 에이전트 태스크에서 병렬 분해의 가치가 극대화된다는 것을 의미합니다.
    2. 레이턴시-성능 동시 개선: Agent Swarm은 성능을 희생하고 속도를 얻거나, 속도를 희생하고 성능을 얻는 트레이드오프가 아니라, 양쪽 모두를 동시에 개선합니다. 이는 병렬 분해가 단순한 속도 최적화가 아니라 문제 해결 전략 자체를 개선하기 때문입니다.

    주요 수치

    K2 핵심 수치

    항목
    총 파라미터 1.04T
    활성 파라미터 32.6B
    Expert 수 384 (Active 8 + Shared 1)
    Sparsity 48
    학습 토큰 15.5T
    QK-Clip τ 100
    어텐션 헤드 64
    컨텍스트 128K
    SWE-Bench (Agentic) 65.8%
    τ2-Bench 66.1
    ACEBench 76.5

    K2.5 핵심 수치

    항목
    기반 모델 K2 (1.04T)
    비전 인코더 MoonViT-3D (SigLIP-SO-400M 초기화)
    비전:텍스트 비율 10:90 (Early Fusion)
    Agent Swarm BrowseComp 78.4% (+17.8%p vs Single)
    WideSearch 레이턴시 3~4.5× 감소
    Toggle 토큰 절감 25~30%
    Cross-Modal Transfer +1.7~2.2% (텍스트 벤치마크)
    OSWorld (Computer Use) 63.3%
    SWE-Bench Verified 76.8%
    AIME 2025 96.1%

    Agent Swarm PARL 보상

    보상 항 역할 어닐링
    r_parallel Serial Collapse 방지 λ₁ → 0
    r_finish Spurious Parallelism 방지 λ₂ → 0
    r_perf 태스크 성과 (최종 목적) 항상 유지

    댓글

ABOUT ME

🎓 부산대학교 정보컴퓨터공학과 학사: 2017.03 - 2023.08
☁️ Rakuten Symphony Jr. Cloud Engineer: 2024.12.09 - 2025.08.31
🏆 2025 AI 새싹톤 우수상 수상: 2025.10.30 - 2025.12.02
🌏 이코에코(Eco²) 백엔드/인프라 고도화 중: 2025.12 - Present

Designed by Mango