ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • GEODE 랜드스케이프: 26년 3월, 3중 하네스 생산 체계의 발견과 Autonomous 하네스
    Harness/report 2026. 3. 26. 05:48

    Date: 2026-03-26
    Author: mangowhoiscloud, Claude Code Opus 4.6
    GitHub: https://github.com/mangowhoiscloud/geode

    GitHub - mangowhoiscloud/geode: GEODE v0.20.0 — 범용 자율 실행 에이전트 | LangGraph Agent CLI | Multi-Provider LLM

    GEODE v0.20.0 — 범용 자율 실행 에이전트 | LangGraph Agent CLI | Multi-Provider LLM · CANNOT Workflow · HITL Safety | 46 Tools | 175 Modules | 2870+ Tests - mangowhoiscloud/geode

    github.com

     


    목차

    1. 서론: 하네스와 모델의 기여도 추이
    2. 하네스 정의와 6요소 프레임워크
    3. 프론티어 하네스 전수 조사 (2026-03 기준)
    4. 벤치마크 정량 분석
    5. 3중 하네스 구조의 발견
    6. Soft Harness vs Hard Harness — 제약의 스펙트럼
    7. 4사분면 포지셔닝
    8. 구현 성향 레이더 분석
    9. 횡단 트렌드 7선
    10. 관측된 실패 모드 12유형
    11. 결론: 하네스 성숙도 모델

    1. 서론: 하네스와 모델의 기여도 추이

    2026년 3월 현재, AI 에이전트 시장 규모는 약 $10.9B (MarketsAndMarkets, CAGR 46.3%)입니다.
    Gartner는 2026년 말까지 엔터프라이즈 애플리케이션의 40%가 태스크-특화 AI 에이전트를 내장할 것으로 전망합니다.
    이 시장에서 관측되는 구조적 추이가 있습니다. 에이전트 성능에서 모델 자체의 기여도모델을 감싸는 인프라(하네스)의 기여도 사이의 비중 이동이 관측됩니다.

    • LangChain은 모델(GPT-5.2-Codex)을 고정한 채 하네스만 교체하여 Terminal Bench 2.0 점수를 52.8% → 66.5%로 개선했습니다.
    • SWE-bench Pro에서 동일 Opus 4.5 모델이 scaffold에 따라 45.9% vs 57.5%로 11.6%p 차이를 보였습니다.
    • 프론티어 모델 가격은 1년 간 $15/M tokens에서 $3/M 이하로 하락했습니다.

    이는 하네스의 기여도가 상승 추세에 있음을 시사하지만, 모델 자체의 향상도 지속되고 있어 양자 관계는 상호 보완적입니다.
     
    본 리포트는 세 가지 질문을 다룹니다:

    1. 2026년 3월 기준 프론티어 하네스들의 분류와 포지셔닝은 어떠합니까?
    2. 하네스 위에 하네스를 쌓는 "메타-하네스" 패턴은 어떻게 작동합니까?
    3. GEODE 프로젝트의 3중 하네스 구조는 이 랜드스케이프에서 어떤 좌표에 있습니까?

    2. 하네스 정의와 6요소 프레임워크

    하네스(Harness): AI 에이전트의 행동을 제약(Constraint), 유도(Guidance), 증폭(Amplification)하는 인프라 전체를 지칭합니다. Phil Schmid의 정의를 확장하면, 프로덕션 하네스는 6개 요소로 구성됩니다:

    H1Context Engineering에이전트가 보는 정보의 선택·배제·순서·압축CLAUDE.md, 1M 윈도우, auto-compaction
    H2Verification Loop출력 품질을 검증하고 재시도하는 피드백 루프lint/type/test 게이트, SWE-bench scaffolding
    H3State Management세션·태스크·워크플로우의 상태 추적과 지속ConversationContext, Tasks DAG, 칸반 보드
    H4Tool Orchestration도구 선택, 권한 제어, 병렬 실행ToolRegistry, PolicyChain, MCP 카탈로그
    H5Human-in-the-Loop사람의 승인·감독·개입 메커니즘DANGEROUS 도구 승인, Socratic Gate
    H6Lifecycle Management에이전트의 생성부터 종료까지 전체 수명 주기 관리Hook 이벤트, 세션 격리, 리소스 정리

    이 6요소는 하네스 비교의 공통 좌표계로 사용됩니다.

    2.1 하네스 분류도 (Taxonomy)

    하네스를 7차원으로 분류합니다. 학술 기반(arXiv 2601.12560, OECD Paper No. 56, INTERFACE EU)과 산업 기반(Schmid, Fowler, Swarmia, StackOne)의 분류 체계를 종합했습니다.

    정의 출처

    Schmid (2026)Model = CPU, Harness = OS, Agent = Application"Harness governs how the agent runs"
    Fowler / ThoughtWorksSDK·Framework = how you build, Harness = how it runs"Build vs Run distinction"
    arXiv 2601.125606차원 분류: Perception, Brain, Planning, Action, Tool Use, Collaboration3 패러다임: Symbolic, Neural, Hybrid
    OECD Paper No. 56AI Agent vs Agentic AI 구분"Extended autonomy + multi-agent coordination"
    INTERFACE EU자율 주행 레벨 모델 차용, 5단계 자율성"Higher autonomy → higher provider liability"
    Swarmia코딩 에이전트 5단계: Autocomplete → Self-Directing"Higher is not always better"

    GEODE의 분류 좌표

    D1 배포 형태CLI + SDK (하이브리드)
    D2 아키텍처Agentic Loop + DAG (LangGraph StateGraph) + Hierarchical (SubAgentManager)
    D3 통합 프로토콜MCP (43 카탈로그) + DomainPort (자체 프로토콜) + CLAUDE.md
    D4 자율성 수준L3 (Supervised Agent — HITL on DANGEROUS)
    D5 추상 계층L3 (Agent Harness) — L4로의 확장 경로 보유
    D6 대상 사용자Individual Developer + Framework Developer
    D7 오픈소스Private (프로토콜은 공개)

    3. 프론티어 하네스 전수 조사 (2026-03 기준)

    3.1 개발자 에이전트 하네스 (CLI/IDE)

    Claude Code (Anthropic)

    단일 스레드 마스터 루프(while stop_reason == "tool_use")에 기반한 터미널-퍼스트 CLI입니다.

    IDE에 종속되지 않고 모든 워크플로우와 조합 가능합니다.

    H11M 토큰 윈도우(Opus 4.6), 자동 컴팩션, CLAUDE.md 시스템 프롬프트 주입
    H2도구 실행→결과 확인→재시도 루프
    H3ConversationContext(deepcopy), AutoMemory(자동 습관 학습), Tasks DAG
    H446+ 빌트인 도구, MCP 네이티브, PolicyChain(STANDARD/WRITE/DANGEROUS)
    H5권한별 승인, Agent Teams로 자율 확장 가능
    H6세션 시작/종료, 서브에이전트 상속(tools/MCP/skills/memory), 백그라운드 태스크

     
    Agent Teams(병렬 서브에이전트), AutoMemory(자동 습관 학습), Claude Agent SDK(동일 하네스의 프로그래매틱 노출)입니다.
    Xcode 26.3 네이티브 통합을 지원합니다.

    Codex CLI (OpenAI)

    Rust 구현의 레이어드 아키텍처(ThreadManager → CodexThread → Session)입니다. 오픈소스입니다.

    H1400K 토큰(GPT-5.4), Diff 기반 포겟팅(요약 대신 구조적 diff 보존)
    H2샌드박스 내 테스트 실행, TDD 루프
    H3TOML 설정, 세션 관리
    H4MCP 확장, 샌드박스 정책(파일시스템/네트워크 접근 제어)
    H5커널 레벨 샌드박싱(Claude Code의 애플리케이션 레이어 훅과 대비)
    H6클라우드 비동기 태스크 위임, 멀티에이전트 워크플로우

    Rust 구현(속도), 커널 샌드박싱(보안), Terminal-Bench 75.1%(Claude Code 65.4% 대비 우위), 클라우드 비동기 위임입니다.

    Cursor

    VS Code 포크(플러그인이 아닌 완전한 포크)입니다. IDE-네이티브 에이전트 아키텍처입니다.

    H1@Codebase/@Docs/@Git 심볼 기반 프로젝트 의존성 그래프 컨텍스트
    H2Composer/Agent 모드에서 자율적 터미널 명령, 에러 분석, 수정 제안
    H3Memory 도구(반복 학습), .cursor/rules/ 디렉토리(glob 매칭)
    H4MCP 통합(2026-03), 의존성 설치, 테스트 실행, 컴파일 에러 분석
    H5Automations(Slack/Linear/GitHub/PagerDuty 이벤트 트리거)
    H6Composer 모드 멀티 파일 아키텍처 변경, 이벤트 트리거 always-on 에이전트

    $2B ARR, IDE-네이티브 경험, Automations(이벤트 트리거 상시 에이전트)입니다.
    LogRocket AI Dev Tool Power Rankings #1 (2026-02)입니다.

    Windsurf (Cognition AI)

    IDE+Agent 퓨전입니다. Cognition AI(Devin)가 2025년 12월 인수했습니다.
    Cascade AI 시스템으로 멀티파일 편집을 지원합니다.

    Gemini CLI (Google)

    오픈소스입니다. ReAct 루프 + Google Search 그라운딩을 지원합니다.
    무료 티어(60 req/min), 1M 컨텍스트(Gemini 3)로 가장 낮은 진입 장벽을 제공합니다.

    Aider

    오픈소스입니다. Architect/Editor 듀얼 모델 접근(하나는 계획, 하나는 편집)을 사용합니다. 100+ LLM 호환(Ollama 포함)이며, Repository Map으로 효율적 컨텍스트 관리를 합니다. 멀티모달 입력(이미지, 웹, 음성)을 지원합니다.

    Kiro (AWS)

    VS Code 포크입니다. Spec-driven 개발 철학을 가지고 있습니다. Agent Client Protocol(ACP)로 크로스 에디터 호환(JetBrains, Zed)을 지원합니다. Amazon Bedrock 기반이며, FedRAMP High 인증을 추진 중입니다.

    GitHub Copilot (Agent Mode)

    Fleet 모드(병렬 서브에이전트)를 지원합니다. Agentic 코드 리뷰(도구 호출로 리포지토리 컨텍스트 수집)가 가능합니다. 4.7M 유료 구독자를 보유하고 있으며, Fortune 100의 90%가 사용합니다.

    OpenClaw

    상시 작동 Node.js 데몬/서비스입니다. Gateway(제어 플레인) + Agent Runtime(실행 플레인) 분리 구조입니다. 메시징 앱 통합(Telegram, Slack)과 로컬-퍼스트 아키텍처를 갖추고 있습니다. NVIDIA NemoClaw 통합(GTC 2026)을 지원합니다.

    3.2 에이전트 프레임워크/SDK

    LangGraph그래프 기반 워크플로우, 노드=에이전트프로덕션 최다 실적, LangSmith 관측성34.5M
    OpenAI Agents SDK5 프리미티브(Agents/Handoffs/Guardrails/Sessions/Tracing)최소 멘탈 모델, 프로바이더 무관(Swarm 후속)
    Claude Agent SDKClaude Code 동일 하네스의 프로그래매틱 노출프로덕션 검증된 루프를 SDK화, Xcode 26.3 네이티브
    Google ADK코드-퍼스트 모듈러 프레임워크, 2.0 Alpha 그래프 도입Vertex AI 네이티브 배포, 광범위 파트너 에코시스템
    CrewAI역할 기반(Role/Goal/Backstory), YAML 설정최저 진입 장벽, 비-ML 엔지니어 친화856K
    AutoGen (→MS Agent Framework)대화형 멀티에이전트 협업Semantic Kernel과 통합 진행(유지보수 모드)
    Pydantic AI타입 안전 에이전트, Durable Execution개발 시점 에러 탐지, 스트림드 구조화 출력15.1K stars
    MastraTypeScript-퍼스트, Gatsby 팀 출신, YC W25JS 에이전트 프레임워크 최고 성장(22.3K stars, 300K npm/week)300K

    3.3 자율 에이전트 플랫폼

    Devin (Cognition AI)~55-60% Verified복합 AI 시스템(다중 특화 모델 스웜), 멀티 인스턴스 병렬, 레거시 코드베이스 리팩토링
    Manus (Meta 인수, $2-3B)완전 자율(명시적 지시 불요), $100M+ ARR, 22M+ 월간 방문, 메시징 앱 개인 에이전트
    OpenHands77.6% VerifiedCodeAct 2.1, 오픈소스 표준, 1000+ 클라우드 에이전트 스케일링, 69.6K stars
    SWE-agentPrinceton 연구 기반, 학술 확장에 최적화된 클린 아키텍처, 18.8K stars

    4. 벤치마크 정량 분석

    4.1 SWE-bench Verified (2026-03)

    상위 에이전트 간 점수 수렴이 관측됩니다. 모델이 아닌 scaffold(하네스)가 10-15%의 분산을 설명합니다.

    Claude Opus 4.580.9%최고
    Gemini 3.1 Pro80.6% 
    GPT-5.280.0% 
    Claude Sonnet 4.679.6% 
    Sonar Foundation Agent79.2%자율 수정 에이전트
    DeepSeek V3.268.0%$0.028/M tokens
    77개 모델 평균62.2% 

    4.2 SWE-bench Pro (난이도 상향)

    모델-하네스 조합의 분산이 더 명확하게 드러납니다.

    GPT-5.457.7%
    Claude Opus 4.6 + WarpGrep v257.5%
    GPT-5.3-Codex56.8%
    Claude Opus 4.5 (SEAL scaffold)45.9%

    동일 Opus 4.5가 scaffold 차이로 45.9% vs 57.5% — 11.6%p 격차입니다. 하네스 구성이 성능 분산의 유의미한 변수임을 보여주는 데이터 포인트입니다.

    4.3 Terminal-Bench 2.0 (CLI 에이전트, 89태스크)

    GPT-5.3-Codex77.3%
    Gemini 3.1 Pro Preview67.4%
    Claude Sonnet 4.659.55%
    Claude Opus 4.558.43%
    Deep Agents CLI (Sonnet 4.5)~42.5%

    프론티어 모델의 해결률은 65% 미만입니다. 터미널 태스크에서 Codex CLI(GPT-5.3 기반)가 가장 높은 점수를 기록했습니다.

    4.4 생산성 역설

    METR RCT (16명 숙련 개발자, 246 이슈)AI 사용 시 19% 느려짐 (CI: +2%~+39%)
    개발자 자기 평가AI가 24% 빠르게 할 것이라 예측, 사용 후에도 20% 빨라졌다고 착각
    Faros AIAI 고도 채택 팀: 태스크 +21%, PR 머지 +98%, PR 리뷰 시간 +91%
    DORA 2024AI 도구 도입 후 배포 안정성 -7.2% 감소
    Stack Overflow 202584% 개발자 AI 사용/계획, 33%만 AI 출력 신뢰, 45% AI 코드 디버깅이 더 오래 걸린다

    관측: AI가 코드 생성량을 늘리는 반면, 리뷰·디버깅·통합 비용이 증가하여 전체 생산성 이득이 제한됩니다. 하네스의 검증 루프(H2)가 이 비용을 줄이는 접근으로 주목받고 있습니다.

    4.5 보안 정량 데이터

    AI 생성 코드 보안 결함45%Veracode
    3개 에이전트, 30 PR 중 취약점 포함 비율87%HelpNetSecurity
    AI 코드 결함 배수 (vs 인간)1.7xOpsera
    XSS 방어 실패율86%동일 연구

    Broken Access Control이 Claude Code, Codex, Gemini 세 에이전트 모두에서 가장 보편적인 취약점으로 관측되었습니다.

    4.6 시장·채택 정량

    MCP SDK 월간 다운로드97M+
    가용 MCP 서버5,800+
    MCP 클라이언트300+
    GitHub Copilot 유료 구독자4.7M
    Cursor ARR$2B
    Claude Code ARR$2.5B
    Codex 주간 활성 사용자1.6M
    Anthropic 전체 ARR$14B
    AI 작성 코드 비율41%

    5. 3중 하네스 구조의 발견

    GEODE 프로젝트를 살펴보면, 단일 하네스가 아닌 3중 적층 구조가 작동하고 있음을 확인할 수 있습습니다.

    ┌──────────────────────────────────────────────────────────────┐
    │  ③ User Production Harness (CLAUDE.md Ecosystem)             │
    │     CANNOT/CAN 규칙 17+5, Socratic Gate 5Q, GAP Audit,       │
    │     7-Step Workflow, 21 Skills, Memory Index,                 │
    │     Quality Gates 3종, Gitflow 규약, 칸반 3-Checkpoint         │
    │  ┌──────────────────────────────────────────────────────────┐ │
    │  │  ② Platform Harness (Claude Code)                        │ │
    │  │     while(tool_use) 루프, Sub-agents, MCP,                │ │
    │  │     PolicyChain, Context Compaction,                      │ │
    │  │     AutoMemory, Read/Edit/Bash/Grep/Agent                │ │
    │  │  ┌────────────────────────────────────────────────────┐  │ │
    │  │  │  ① Foundation Model (Claude Opus 4.6)              │  │ │
    │  │  │     Raw reasoning + tool_use + structured output    │  │ │
    │  │  └────────────────────────────────────────────────────┘  │ │
    │  └──────────────────────────────────────────────────────────┘ │
    │                              ↓ produces                       │
    │                    ★ GEODE (Autonomous Harness)               │
    └──────────────────────────────────────────────────────────────┘

    각 층이 하네스 6요소를 독립적으로 충족합니다:

    H1 Context학습 데이터 + 시스템 프롬프트1M 윈도우, auto-compaction, CLAUDE.md 주입Skills 트리거, Memory 로드, GAP Audit
    H2 VerificationSelf-consistency도구 실행→결과 확인 루프Quality Gate 3종 + E2E + Socratic 5Q
    H3 State컨텍스트 윈도우 내 상태ConversationContext, AutoMemory, Tasks7-Step 워크플로우 상태, 칸반, progress.md
    H4 Toolstool_use 프로토콜46+ 도구, MCP, ToolSearchGAP Audit(grep/Explore), Worktree, HEREDOC PR
    H5 HITLDANGEROUS 도구 승인Socratic Gate 사용자 승인, PR CI 루프
    H6 Lifecycle세션 시작/종료Board→GAP→Plan→Impl→Verify→Docs→PR→Board

    5.1 ③의 진화 타임라인

    GEODE v0.1(2026-02-21)부터 v0.27.1(2026-03-26)까지 32일간의 하네스 성숙도 추이입니다:

    Phase 1 (v0.1-v0.14, 2/21-3/9)     Phase 2 (v0.15-v0.20, 3/10-19)
    ───────────────────────────         ─────────────────────────────
    Ad-hoc, CLAUDE.md 부재               6-Layer 형식화, CANNOT/CAN 도입
    Anthropic 단일 프로바이더             Port/Adapter DI, MCP 레지스트리
    750 tests, 0 skills                  1500+ tests, 18 skills
    하네스 요소: 1/6 충족                  하네스 요소: 4/6 충족
    
    Phase 3 (v0.21-v0.24, 3/19-25)     Phase 4 (v0.25-v0.27, 3/25-26)
    ───────────────────────────         ─────────────────────────────
    REODE 패턴 역수입 (5 skills)          Memory 4-tier 시스템 프롬프트 주입
    Quality Gate 3종 형식화               MCP 병렬 스타트업 (110s→15s)
    3-Provider fallback chain             Model-switch context guard
    하네스 요소: 6/6 충족                  6/6 + 적응형 컨텍스트 방어
    21 skills, 36 hook events             3109+ tests, 221 modules
    v0.1750~500011/6
    v0.141000+~12001012/6
    v0.201500+~180182514/6
    v0.222500+~200253036/6
    v0.27.13109+221213636/6+

    5.2 메타-하네스 패턴의 선행 사례

     

    Karpathy autoresearchRaw LLM APIprogram.md + git 상태 머신 + ratchet극단적 단순 메타-하네스
    Ralphton 우승팀Coding agent (미공개)133회 Socratic 라운드 + 모호성 점수 0.05대회 특화 메타-하네스
    OpenClawLLM API + TS 런타임Gateway(제어 플레인) + Agent Runtime(실행 플레인)인프라 메타-하네스
    GEODEClaude CodeCLAUDE.md + 21 Skills + 7-Step Workflow풀스택 메타-하네스

     
    GEODE의 3중 구조가 고립된 현상이 아님을 보여주는 선행 사례입니다:
    이 사례들의 공통 관측은 기반 하네스의 자유도를 제약함으로써 출력 품질이 향상됩니다.


    6. Soft Harness vs Hard Harness — 제약의 스펙트럼

    하네스 설계의 핵심 설계 변수는 제약의 강도(hardness)입니다. 네 가지 유형이 관측됩니다:

    유형 강제 방식 위반 가능성 대표 구현
    Hard Constraint 코드 강제, 우회 불가 없음 샌드박스 파일시스템 제한, PolicyChain deny-list, 컨텍스트 윈도우 물리적 한계
    Ratchet Constraint Soft 강제 + 자동 롤백 시도 가능, 실패 시 되돌림 autoresearch P4 (if better: keep, else: revert)
    Gated Constraint 기본 Soft, 탐지 시 Hard 탐지 전까지 가능 GEODE HITL(DANGEROUS 도구만 Hard)
    Soft Constraint 프롬프트 기반, LLM 자기 규율 컨텍스트 압박 하에서 위반 가능 CLAUDE.md CANNOT 규칙, .cursorrules

    관측: 가장 효과적인 하네스는 피라미드 구조를 사용합니다:

            ╱ Soft: 50+ 스타일·컨벤션 가이드라인 ╲
           ╱  Gated: 20-30 조건부 제약              ╲
          ╱   Ratchet: 5-10 자동 롤백 규칙            ╲
         ╱    Hard: 3-5 절대 불가 (코드 강제)            ╲
        └──────────────────────────────────────────────┘

    ②(Claude Code)와 ③(User Production Harness)의 제약 성격 차이:

    제약 방식코드(PolicyChain, 샌드박스)텍스트(CANNOT 규칙, Socratic Gate)
    실행 주체런타임 강제LLM 자기 규율
    검증도구 결과 파싱품질 게이트 + 실측값 대조
    상태 저장ContextVar, 인메모리파일(progress.md, MEMORY.md)
    확장MCP/도구 코드 추가Skill .md 파일 추가
    스코프범용프로젝트 특화

    관측: ③은 Hard Constraint가 아닌 Soft+Ratchet 혼합이지만, GEODE의 최근 972 커밋에서 CANNOT 규칙 위반은 0건이었습니다. 이 사례에서는 구조화(명시적 테이블, 장애 시나리오 문서화, 3-Checkpoint)가 Soft Constraint의 준수율을 높이는 데 기여한 것으로 보입니다.


    7. 4사분면 포지셔닝

    축 정의

    • X축: Minimal ↔ Comprehensive — 추상 레이어 수, 모델 수, 도구 수, 오케스트레이션 깊이
    • Y축: Assisted ↔ Autonomous — 사람 주도 vs 에이전트 주도, 자율 의사결정 수준

    전체 맵

    사분면별 특성

    Q1 (Comprehensive + Autonomous)풀-피처 자율 플랫폼. 멀티 도구, 멀티 모델, 자율 의사결정.Devin, Manus, OpenHands, Windsurf, GEODE대규모 자율 파이프라인, 무인 분석, 레거시 리팩토링
    Q2 (Minimal + Autonomous)경량 자율 에이전트. 좁은 스코프, 높은 자율성.SWE-agent, Codex CLI, AutoGenCLI 태스크 자동화, 연구용 벤치마킹, CI/CD 통합
    Q3 (Minimal + Assisted)가벼운 인간-AI 협업 도구. 빠른 프로토타이핑.Aider, Gemini CLI, CrewAI, OpenAI SDK, Pydantic AI, Mastra페어 프로그래밍, 학습, MVP 개발
    Q4 (Comprehensive + Assisted)피처-리치 환경에서 인간이 주도. AI는 강력한 협업자.Claude Code, Cursor, Copilot, Kiro, LangGraph, ADK프로덕션 개발, 엔터프라이즈 코딩, 팀 협업

    3중 하네스의 사분면 궤적

    Producer-Product Inversion: ②(Claude Code)는 Q4(Assisted)인데, 그것이 생산한 GEODE는 Q1(Autonomous)입니다.
    생산 도구보다 Autonoumous 하네스가 더 자율적입니다. ③(User Production Harness)은 이 역전을 가능하게 하는 변환기(transformer)입니다 — Q4의 도구에 자율 워크플로우를 씌워 Q1 Autonomous 하네스을 만들어냅니다.


    8. 구현 성향 레이더 분석

    8.1 주요 하네스 7축 비교

    단순성████████░░██████░░░░████░░░░░░████████░░██████░░░░██████████
    결정론적 실행███░░░░░░░████████░░█████████░████░░░░░░██████░░░░██████████
    멀티 모델 회복력████░░░░░░█████░░░░░█████████░██████░░░░████████░░██░░░░░░░░
    도메인 특화██░░░░░░░░████████░░████████░░██░░░░░░░░████░░░░░░██████████
    개발자 경험█████████░█████░░░░░█████░░░░░████████░░██████░░░░███░░░░░░░
    자율 오케스트레이션█████░░░░░███████░░░█████████░██████░░░░████████░░████████░░
    컨텍스트 공학████████░░████████░░████████░░██████░░░░██████░░░░██████████

    8.2 설계 철학 스펙트럼

    각 하네스의 설계 철학을 토폴로지 결정론 × 모델 다양성 두 축으로 분류하면 다음과 같습니다:
    GEODEFixed Topology + Multi-Model 조합입니다. LangGraph StateGraph로 파이프라인 토폴로지를 컴파일 타임에 고정하되, 3사 9모델의 런타임 폴백으로 실행 회복력을 확보합니다. 이는 결정론적 실행 + 확률적 회복의 하이브리드 구조로, autoresearch(결정론 극단)와 Claude Code(동적 극단) 사이에 위치합니다.


    9. 횡단 트렌드 7선

    2026년 3월 기준, 주요 프론티어 하네스들에서 공통적으로 관측되는 트렌드입니다:

    Trend 1: MCP의 유니버설 프로토콜화

    Anthropic이 시작한 MCP(Model Context Protocol)가 OpenAI, Google, Microsoft에 의해 채택되었습니다. 97M 월간 SDK 다운로드, 5,800+ 서버를 기록하고 있습니다. 2025년 12월 Linux Foundation(AAIF)에 기증되었습니다. 2026 로드맵: Transport 확장성, Agent 간 통신(Tasks primitive), 거버넌스, 엔터프라이즈 준비(SSO, 감사 추적, 게이트웨이)입니다.

    Trend 2: 하네스 기여도에 대한 인식 확산

    커뮤니티 내에서 "모델 성능이 수렴할수록 하네스의 상대적 기여도가 높아진다"는 인식이 확산되고 있습니다. LangChain의 Terminal Bench 사례(하네스만 변경, +13.7%p), SWE-bench Pro의 scaffold 분산(±11.6%p)이 이를 뒷받침하는 데이터 포인트로 인용됩니다. 다만 이 인식이 모든 태스크 유형에 일반화 가능한지는 추가 검증이 필요합니다.

    Trend 3: Sub-agent 아키텍처의 표준화

    Claude Code(Agent Teams), GitHub Copilot(Fleet), Codex CLI(멀티에이전트), Devin(멀티인스턴스) 등 주요 하네스들이 병렬 서브에이전트를 지원합니다. 공통 패턴: 메모리 격리, 도구 상속, 결과 요약 머지입니다.
    Anthropic 내부 평가에 따르면 멀티에이전트가 싱글에이전트 대비 90.2% 성능 향상을 보였습니다. 병렬화 가능 태스크에서 +81%, 순차 태스크에서 -70%입니다 (Google Research).

    Trend 4: 메모리의 계층화

    3단계 메모리 전략이 다수 하네스에서 관측됩니다:

    • Ephemeral: 세션 내 (ConversationContext)
    • Persistent Project: 프로젝트 수준 (CLAUDE.md, specs)
    • Learned/Adaptive: 자동 학습 (AutoMemory, Cursor Memory Tool)

    GEODE는 4-Tier(Organization > Project > Session + UserProfile)로 이를 확장했습니다.

    Trend 5: TypeScript 생태계의 부상

    Mastra(22K stars, 300K npm/week), Claude Agent SDK(TS), OpenAI Agents SDK(TS), Google ADK(TS) — TypeScript 기반 에이전트 프레임워크가 증가하며 Python 중심이었던 생태계의 다변화 추이가 관측됩니다.

    Trend 6: Spec-driven vs Vibe Coding의 분기

    Kiro(AWS)의 Spec-driven 철학, GEODE의 Socratic Gate, Ralphton 우승팀의 모호성 점수 0.05이 있습니다. 프로덕션 하네스는 "코딩 전에 명세"로 수렴합니다.

    Vibe Coding ←─────────────────────────────→ Spec-driven
      │                                               │
      단일 프롬프트                         Socratic Gate 5Q
      테스트 없음                          3109+ tests, 3-gate
      No CLAUDE.md                   Comprehensive CLAUDE.md
      프로토타이핑                          프로덕션 시스템

    Trend 7: 안전 아키텍처의 분기

    애플리케이션 레이어 훅"과잉 확신하지만 선의의 에이전트"Claude Code
    커널 레벨 샌드박싱"잠재적 적대적 에이전트"Codex CLI
    6-Layer PolicyChain"계층적 권한 분리"GEODE

    양쪽 모두 정당한 신뢰 가정에 기반하며, 배포 환경에 따라 선택이 갈립니다.


    10. 관측된 실패 모드 12유형

    프론티어 하네스들에서 반복적으로 관측되는 실패 패턴을 분류합니다:

    F1Context Explosion대형 도구 결과가 윈도우를 가득 채움토큰 인지 프루닝, 도구 결과 요약매우 높음
    F2Model Switch Overflow큰 모델→작은 모델 전환 시 컨텍스트 미적응선제적 컨텍스트 축소 (GEODE v0.27.1)중간
    F3Hallucinated Architecture존재하지 않는 프로젝트 패턴 생성CLAUDE.md 명시적 아키텍처 문서높음
    F4Rework Loop동일 변경을 되돌리고 다시 적용 반복Ratchet(P4), 테스트-퍼스트 워크플로우높음
    F5Constraint Drift컨텍스트 압박 하에 soft 제약 무시Hard constraint 코드화, 피라미드 구조중간
    F6Over-engineering불필요한 복잡성 추가Simplicity Selection(P10), Socratic Gate매우 높음
    F7Stale Context만료된 정보로 의사결정세션 TTL, 메모리 갱신 훅중간
    F8Anchoring Bias이전 분석 결과에 고정Clean Context(이전 분석 배제)높음 (파이프라인)
    F9Cost Explosion통제 없는 API 호출, live 테스트 무단 실행고정 시간 예산(P3), 비용 가드높음
    F10Multi-agent Conflict동시 에이전트의 동일 리소스 수정세션 키 격리, .owner 파일, Lane Queue중간
    F11Version Desync버전 번호가 파일별로 불일치명시적 동기화 가드 (GEODE 4곳 필수)높음
    F12Fake Success테스트 실패를 성공으로 보고Anti-deception checklist, 실측 검증중간

    JetBrains NeurIPS 2025 발견: LLM 생성 요약이 에이전트 궤적을 13-15% 연장시킵니다. 결정론적 관측 마스킹(코드 기반, LLM 비사용)이 동등 성능에서 50% 비용 절감을 달성했습니다. GEODE의 "Tier 1: 결정론적 요약, Tier 2: LLM 내러티브(opt-in)" 접근을 지지하는 외부 증거입니다.


    11. 결론: 하네스 성숙도 모델

    5단계 성숙도 모델

    본 리포트에서 관측한 패턴들을 종합하면, 하네스 성숙도를 5단계로 분류할 수 있습니다:

    L0No Harness0/6Raw LLM API 호출실험
    L1Instruction File1-2/6.cursorrules, 기본 AGENTS.md프로토타입
    L2Platform Harness3-4/6Claude Code 기본, Codex CLI 기본MVP
    L3Customized Platform5-6/6Claude Code + CLAUDE.md + Skills프로덕션
    L4Meta-Harness6/6 + 적응형GEODE 3중 구조, autoresearch성숙 시스템

    GEODE의 좌표

    하네스 성숙도L4 (Meta-Harness)
    사분면 위치Q1 (Comprehensive + Autonomous)
    설계 철학Fixed Topology + Multi-Model Hybrid
    제약 구조피라미드 (Hard 5 + Ratchet 3 + Gated 20 + Soft 50+)
    생산 도구 위치Q4 → Q1 변환기 (③ User Production Harness)

    최종 관측

    1. 하네스는 3중입니다. Foundation Model → Platform Harness → User Production Harness. 각 층은 독립적 하네스 6요소를 충족하며, 상위 층이 하위 층의 자유도를 제약합니다.
    2. Producer-Product Inversion이 관측됩니다. Assisted(Q4) 도구로 Autonomous(Q1)를 만드는 구조에서, ③(User Production Harness)이 변환 레이어로 기능하고 있습니다.
    3. Soft Constraint의 준수율이 예상보다 높습니다. GEODE의 972 커밋에서 CANNOT 위반 0건이 관측되었습니다. 구조화된 명시적 테이블과 Checkpoint를 동반할 때, 프롬프트 기반 제약이 높은 준수율을 보이는 것으로 나타났습니다. 단, 이는 단일 프로젝트의 관측이며 일반화에는 추가 검증이 필요합니다.
    4. 엔지니어링 관심사의 이동이 관측됩니다. 프롬프트 엔지니어링(2025 초) → 컨텍스트 엔지니어링(2025 중) → 하네스 엔지니어링(2026)으로 커뮤니티의 초점이 이동하는 추세가 Schmid, Fowler, Gupta 등에 의해 보고되고 있습니다.
    5. 벤치마크에서 하네스 변수의 영향이 유의미합니다. SWE-bench Pro에서 동일 모델의 scaffold 차이가 11.6%p를 만들었습니다. 모델 선택과 하네스 설계 모두 성능에 기여하며, 특히 모델 성능이 수렴하는 구간에서 하네스의 상대적 기여도가 높아지는 경향이 관측됩니다.

    참고 문헌

    • Epoch AI, "SWE-bench Verified Leaderboard" (2026)
    • Scale Labs, "SWE-bench Pro Public Leaderboard" (2026)
    • Vals AI, "Terminal-Bench 2.0" (2026)
    • METR, "Early 2025 AI Experienced OS Developer Productivity Study" (2025)
    • METR, "Uplift Update" (2026-02)
    • Stack Overflow, "2025 Developer Survey — AI Section" (2025)
    • Faros AI, "AI Software Engineering Productivity Analysis" (2026)
    • Google, "2024 DORA Report" (2024)
    • Veracode, "AI-Generated Code Security Risks" (2026)
    • HelpNetSecurity, "AI Coding Agent Security: Claude Code, Codex, Gemini" (2026-03)
    • Gartner, "40% Enterprise Apps AI Agents by 2026" (2025-08)
    • Gartner, "40% Agentic AI Project Cancellations by 2027" (2025-06)
    • MarketsAndMarkets, "AI Agents Market $52.62B by 2030" (2026)
    • LangChain, "Evaluating Deep Agents CLI on Terminal-Bench 2.0" (2026)
    • Anthropic, "Building Agents with Claude Agent SDK" (2026)
    • OpenAI, "Agents SDK Documentation" (2026)
    • Google, "Agent Development Kit Documentation" (2026)
    • JetBrains, "LLM-Generated Summaries Cause Trajectory Elongation" (NeurIPS 2025, arXiv 2508.21433)
    • Phil Schmid, "The Importance of Agent Harness in 2026" (2026)
    • MCP Manager, "MCP Adoption Statistics" (2026)
    • Builder.io, "Codex vs Claude Code: Architecture Deep Dive" (2026)
    • Google Research, "Towards a Science of Scaling Agent Systems" (2026)
    • Arunkumar et al., "Agentic AI: Architectures, Taxonomies, and Evaluation" (arXiv 2601.12560, 2026-01)
    • "AI Agents vs. Agentic AI: A Conceptual Taxonomy" (arXiv 2505.10468, 2025)
    • OECD, "The Agentic AI Landscape and Its Conceptual Foundations" (Paper No. 56, 2026-02)
    • INTERFACE EU, "An Autonomy-Based Classification of AI Agents" (2026)
    • Swarmia, "Five Levels of AI Coding Agent Autonomy" (2026)
    • Martin Fowler / ThoughtWorks, "Harness Engineering" (2026)
    • OpenAI, "Harness Engineering: Leveraging Codex in an Agent-First World" (2026)
    • Aakash Gupta, "2025 Was Agents. 2026 Is Agent Harnesses." (2026)
    • StackOne, "The AI Agent Tools Landscape: 120+ Tools Mapped" (2026)
    • Microsoft Azure, "AI Agent Design Patterns" (2026)
    • Linux Foundation AAIF, "MCP + A2A Protocol Governance" (2025-12)

    댓글

ABOUT ME

🎓 부산대학교 정보컴퓨터공학과 학사: 2017.03 - 2023.08
☁️ Rakuten Symphony Jr. Cloud Engineer, Full-time: 2024.12.09 - 2025.08.31
🏆 2025 AI 새싹톤 우수상 수상: 2025.10.30 - 2025.12.02
🌏 이코에코(Eco²) BE/AI(Harness)/Infra/FE 24-node E2E 고도화 및 운영, 2600만원 소모: 2025.12 - 2026.02
🪂 넥슨 AI 엔지니어(2-3년, 과제합 -> 면접 탈락), 무신사 AI-Native(전환형 인턴, 진행 X) 채용 프로세스: 2026.01.31 - 2026.03.05
🪂 GEODE/REODE 개발, Agentic Loop-based 자율 수행 하네스 + 도메인 특화 DAG(Plug-In), AI R&D Freelance @Pinxlab : 2026.03 - 2026.05

Designed by Mango