-
GEODE 랜드스케이프: 26년 3월, 3중 하네스 생산 체계의 발견과 Autonomous 하네스Harness/report 2026. 3. 26. 05:48

Date: 2026-03-26
Author: mangowhoiscloud, Claude Code Opus 4.6
GitHub: https://github.com/mangowhoiscloud/geodeGitHub - mangowhoiscloud/geode: GEODE v0.20.0 — 범용 자율 실행 에이전트 | LangGraph Agent CLI | Multi-Provider LLM
GEODE v0.20.0 — 범용 자율 실행 에이전트 | LangGraph Agent CLI | Multi-Provider LLM · CANNOT Workflow · HITL Safety | 46 Tools | 175 Modules | 2870+ Tests - mangowhoiscloud/geode
github.com
목차
- 서론: 하네스와 모델의 기여도 추이
- 하네스 정의와 6요소 프레임워크
- 프론티어 하네스 전수 조사 (2026-03 기준)
- 벤치마크 정량 분석
- 3중 하네스 구조의 발견
- Soft Harness vs Hard Harness — 제약의 스펙트럼
- 4사분면 포지셔닝
- 구현 성향 레이더 분석
- 횡단 트렌드 7선
- 관측된 실패 모드 12유형
- 결론: 하네스 성숙도 모델
1. 서론: 하네스와 모델의 기여도 추이
2026년 3월 현재, AI 에이전트 시장 규모는 약 $10.9B (MarketsAndMarkets, CAGR 46.3%)입니다.
Gartner는 2026년 말까지 엔터프라이즈 애플리케이션의 40%가 태스크-특화 AI 에이전트를 내장할 것으로 전망합니다.
이 시장에서 관측되는 구조적 추이가 있습니다. 에이전트 성능에서 모델 자체의 기여도와 모델을 감싸는 인프라(하네스)의 기여도 사이의 비중 이동이 관측됩니다.- LangChain은 모델(GPT-5.2-Codex)을 고정한 채 하네스만 교체하여 Terminal Bench 2.0 점수를 52.8% → 66.5%로 개선했습니다.
- SWE-bench Pro에서 동일 Opus 4.5 모델이 scaffold에 따라 45.9% vs 57.5%로 11.6%p 차이를 보였습니다.
- 프론티어 모델 가격은 1년 간 $15/M tokens에서 $3/M 이하로 하락했습니다.
이는 하네스의 기여도가 상승 추세에 있음을 시사하지만, 모델 자체의 향상도 지속되고 있어 양자 관계는 상호 보완적입니다.
본 리포트는 세 가지 질문을 다룹니다:- 2026년 3월 기준 프론티어 하네스들의 분류와 포지셔닝은 어떠합니까?
- 하네스 위에 하네스를 쌓는 "메타-하네스" 패턴은 어떻게 작동합니까?
- GEODE 프로젝트의 3중 하네스 구조는 이 랜드스케이프에서 어떤 좌표에 있습니까?
2. 하네스 정의와 6요소 프레임워크
하네스(Harness): AI 에이전트의 행동을 제약(Constraint), 유도(Guidance), 증폭(Amplification)하는 인프라 전체를 지칭합니다. Phil Schmid의 정의를 확장하면, 프로덕션 하네스는 6개 요소로 구성됩니다:
H1 Context Engineering 에이전트가 보는 정보의 선택·배제·순서·압축 CLAUDE.md, 1M 윈도우, auto-compaction H2 Verification Loop 출력 품질을 검증하고 재시도하는 피드백 루프 lint/type/test 게이트, SWE-bench scaffolding H3 State Management 세션·태스크·워크플로우의 상태 추적과 지속 ConversationContext, Tasks DAG, 칸반 보드 H4 Tool Orchestration 도구 선택, 권한 제어, 병렬 실행 ToolRegistry, PolicyChain, MCP 카탈로그 H5 Human-in-the-Loop 사람의 승인·감독·개입 메커니즘 DANGEROUS 도구 승인, Socratic Gate H6 Lifecycle Management 에이전트의 생성부터 종료까지 전체 수명 주기 관리 Hook 이벤트, 세션 격리, 리소스 정리 이 6요소는 하네스 비교의 공통 좌표계로 사용됩니다.
2.1 하네스 분류도 (Taxonomy)
하네스를 7차원으로 분류합니다. 학술 기반(arXiv 2601.12560, OECD Paper No. 56, INTERFACE EU)과 산업 기반(Schmid, Fowler, Swarmia, StackOne)의 분류 체계를 종합했습니다.

정의 출처
Schmid (2026) Model = CPU, Harness = OS, Agent = Application "Harness governs how the agent runs" Fowler / ThoughtWorks SDK·Framework = how you build, Harness = how it runs "Build vs Run distinction" arXiv 2601.12560 6차원 분류: Perception, Brain, Planning, Action, Tool Use, Collaboration 3 패러다임: Symbolic, Neural, Hybrid OECD Paper No. 56 AI Agent vs Agentic AI 구분 "Extended autonomy + multi-agent coordination" INTERFACE EU 자율 주행 레벨 모델 차용, 5단계 자율성 "Higher autonomy → higher provider liability" Swarmia 코딩 에이전트 5단계: Autocomplete → Self-Directing "Higher is not always better" GEODE의 분류 좌표
D1 배포 형태 CLI + SDK (하이브리드) D2 아키텍처 Agentic Loop + DAG (LangGraph StateGraph) + Hierarchical (SubAgentManager) D3 통합 프로토콜 MCP (43 카탈로그) + DomainPort (자체 프로토콜) + CLAUDE.md D4 자율성 수준 L3 (Supervised Agent — HITL on DANGEROUS) D5 추상 계층 L3 (Agent Harness) — L4로의 확장 경로 보유 D6 대상 사용자 Individual Developer + Framework Developer D7 오픈소스 Private (프로토콜은 공개) 3. 프론티어 하네스 전수 조사 (2026-03 기준)
3.1 개발자 에이전트 하네스 (CLI/IDE)
Claude Code (Anthropic)
단일 스레드 마스터 루프(
while stop_reason == "tool_use")에 기반한 터미널-퍼스트 CLI입니다.IDE에 종속되지 않고 모든 워크플로우와 조합 가능합니다.
H1 1M 토큰 윈도우(Opus 4.6), 자동 컴팩션, CLAUDE.md 시스템 프롬프트 주입 H2 도구 실행→결과 확인→재시도 루프 H3 ConversationContext(deepcopy), AutoMemory(자동 습관 학습), Tasks DAG H4 46+ 빌트인 도구, MCP 네이티브, PolicyChain(STANDARD/WRITE/DANGEROUS) H5 권한별 승인, Agent Teams로 자율 확장 가능 H6 세션 시작/종료, 서브에이전트 상속(tools/MCP/skills/memory), 백그라운드 태스크
Agent Teams(병렬 서브에이전트), AutoMemory(자동 습관 학습), Claude Agent SDK(동일 하네스의 프로그래매틱 노출)입니다.
Xcode 26.3 네이티브 통합을 지원합니다.Codex CLI (OpenAI)
Rust 구현의 레이어드 아키텍처(ThreadManager → CodexThread → Session)입니다. 오픈소스입니다.
H1 400K 토큰(GPT-5.4), Diff 기반 포겟팅(요약 대신 구조적 diff 보존) H2 샌드박스 내 테스트 실행, TDD 루프 H3 TOML 설정, 세션 관리 H4 MCP 확장, 샌드박스 정책(파일시스템/네트워크 접근 제어) H5 커널 레벨 샌드박싱(Claude Code의 애플리케이션 레이어 훅과 대비) H6 클라우드 비동기 태스크 위임, 멀티에이전트 워크플로우 Rust 구현(속도), 커널 샌드박싱(보안), Terminal-Bench 75.1%(Claude Code 65.4% 대비 우위), 클라우드 비동기 위임입니다.
Cursor
VS Code 포크(플러그인이 아닌 완전한 포크)입니다. IDE-네이티브 에이전트 아키텍처입니다.
H1 @Codebase/@Docs/@Git 심볼 기반 프로젝트 의존성 그래프 컨텍스트 H2 Composer/Agent 모드에서 자율적 터미널 명령, 에러 분석, 수정 제안 H3 Memory 도구(반복 학습), .cursor/rules/ 디렉토리(glob 매칭) H4 MCP 통합(2026-03), 의존성 설치, 테스트 실행, 컴파일 에러 분석 H5 Automations(Slack/Linear/GitHub/PagerDuty 이벤트 트리거) H6 Composer 모드 멀티 파일 아키텍처 변경, 이벤트 트리거 always-on 에이전트 $2B ARR, IDE-네이티브 경험, Automations(이벤트 트리거 상시 에이전트)입니다.
LogRocket AI Dev Tool Power Rankings #1 (2026-02)입니다.Windsurf (Cognition AI)
IDE+Agent 퓨전입니다. Cognition AI(Devin)가 2025년 12월 인수했습니다.
Cascade AI 시스템으로 멀티파일 편집을 지원합니다.Gemini CLI (Google)
오픈소스입니다. ReAct 루프 + Google Search 그라운딩을 지원합니다.
무료 티어(60 req/min), 1M 컨텍스트(Gemini 3)로 가장 낮은 진입 장벽을 제공합니다.Aider
오픈소스입니다. Architect/Editor 듀얼 모델 접근(하나는 계획, 하나는 편집)을 사용합니다. 100+ LLM 호환(Ollama 포함)이며, Repository Map으로 효율적 컨텍스트 관리를 합니다. 멀티모달 입력(이미지, 웹, 음성)을 지원합니다.
Kiro (AWS)
VS Code 포크입니다. Spec-driven 개발 철학을 가지고 있습니다. Agent Client Protocol(ACP)로 크로스 에디터 호환(JetBrains, Zed)을 지원합니다. Amazon Bedrock 기반이며, FedRAMP High 인증을 추진 중입니다.
GitHub Copilot (Agent Mode)
Fleet 모드(병렬 서브에이전트)를 지원합니다. Agentic 코드 리뷰(도구 호출로 리포지토리 컨텍스트 수집)가 가능합니다. 4.7M 유료 구독자를 보유하고 있으며, Fortune 100의 90%가 사용합니다.
OpenClaw
상시 작동 Node.js 데몬/서비스입니다. Gateway(제어 플레인) + Agent Runtime(실행 플레인) 분리 구조입니다. 메시징 앱 통합(Telegram, Slack)과 로컬-퍼스트 아키텍처를 갖추고 있습니다. NVIDIA NemoClaw 통합(GTC 2026)을 지원합니다.
3.2 에이전트 프레임워크/SDK
LangGraph 그래프 기반 워크플로우, 노드=에이전트 프로덕션 최다 실적, LangSmith 관측성 34.5M OpenAI Agents SDK 5 프리미티브(Agents/Handoffs/Guardrails/Sessions/Tracing) 최소 멘탈 모델, 프로바이더 무관(Swarm 후속) — Claude Agent SDK Claude Code 동일 하네스의 프로그래매틱 노출 프로덕션 검증된 루프를 SDK화, Xcode 26.3 네이티브 — Google ADK 코드-퍼스트 모듈러 프레임워크, 2.0 Alpha 그래프 도입 Vertex AI 네이티브 배포, 광범위 파트너 에코시스템 — CrewAI 역할 기반(Role/Goal/Backstory), YAML 설정 최저 진입 장벽, 비-ML 엔지니어 친화 856K AutoGen (→MS Agent Framework) 대화형 멀티에이전트 협업 Semantic Kernel과 통합 진행(유지보수 모드) — Pydantic AI 타입 안전 에이전트, Durable Execution 개발 시점 에러 탐지, 스트림드 구조화 출력 15.1K stars Mastra TypeScript-퍼스트, Gatsby 팀 출신, YC W25 JS 에이전트 프레임워크 최고 성장(22.3K stars, 300K npm/week) 300K 3.3 자율 에이전트 플랫폼
Devin (Cognition AI) ~55-60% Verified 복합 AI 시스템(다중 특화 모델 스웜), 멀티 인스턴스 병렬, 레거시 코드베이스 리팩토링 Manus (Meta 인수, $2-3B) — 완전 자율(명시적 지시 불요), $100M+ ARR, 22M+ 월간 방문, 메시징 앱 개인 에이전트 OpenHands 77.6% Verified CodeAct 2.1, 오픈소스 표준, 1000+ 클라우드 에이전트 스케일링, 69.6K stars SWE-agent — Princeton 연구 기반, 학술 확장에 최적화된 클린 아키텍처, 18.8K stars 4. 벤치마크 정량 분석
4.1 SWE-bench Verified (2026-03)
상위 에이전트 간 점수 수렴이 관측됩니다. 모델이 아닌 scaffold(하네스)가 10-15%의 분산을 설명합니다.
Claude Opus 4.5 80.9% 최고 Gemini 3.1 Pro 80.6% GPT-5.2 80.0% Claude Sonnet 4.6 79.6% Sonar Foundation Agent 79.2% 자율 수정 에이전트 DeepSeek V3.2 68.0% $0.028/M tokens 77개 모델 평균 62.2% 4.2 SWE-bench Pro (난이도 상향)
모델-하네스 조합의 분산이 더 명확하게 드러납니다.
GPT-5.4 57.7% Claude Opus 4.6 + WarpGrep v2 57.5% GPT-5.3-Codex 56.8% Claude Opus 4.5 (SEAL scaffold) 45.9% 동일 Opus 4.5가 scaffold 차이로 45.9% vs 57.5% — 11.6%p 격차입니다. 하네스 구성이 성능 분산의 유의미한 변수임을 보여주는 데이터 포인트입니다.
4.3 Terminal-Bench 2.0 (CLI 에이전트, 89태스크)
GPT-5.3-Codex 77.3% Gemini 3.1 Pro Preview 67.4% Claude Sonnet 4.6 59.55% Claude Opus 4.5 58.43% Deep Agents CLI (Sonnet 4.5) ~42.5% 프론티어 모델의 해결률은 65% 미만입니다. 터미널 태스크에서 Codex CLI(GPT-5.3 기반)가 가장 높은 점수를 기록했습니다.
4.4 생산성 역설
METR RCT (16명 숙련 개발자, 246 이슈) AI 사용 시 19% 느려짐 (CI: +2%~+39%) 개발자 자기 평가 AI가 24% 빠르게 할 것이라 예측, 사용 후에도 20% 빨라졌다고 착각 Faros AI AI 고도 채택 팀: 태스크 +21%, PR 머지 +98%, PR 리뷰 시간 +91% DORA 2024 AI 도구 도입 후 배포 안정성 -7.2% 감소 Stack Overflow 2025 84% 개발자 AI 사용/계획, 33%만 AI 출력 신뢰, 45% AI 코드 디버깅이 더 오래 걸린다 관측: AI가 코드 생성량을 늘리는 반면, 리뷰·디버깅·통합 비용이 증가하여 전체 생산성 이득이 제한됩니다. 하네스의 검증 루프(H2)가 이 비용을 줄이는 접근으로 주목받고 있습니다.
4.5 보안 정량 데이터
AI 생성 코드 보안 결함 45% Veracode 3개 에이전트, 30 PR 중 취약점 포함 비율 87% HelpNetSecurity AI 코드 결함 배수 (vs 인간) 1.7x Opsera XSS 방어 실패율 86% 동일 연구 Broken Access Control이 Claude Code, Codex, Gemini 세 에이전트 모두에서 가장 보편적인 취약점으로 관측되었습니다.
4.6 시장·채택 정량
MCP SDK 월간 다운로드 97M+ 가용 MCP 서버 5,800+ MCP 클라이언트 300+ GitHub Copilot 유료 구독자 4.7M Cursor ARR $2B Claude Code ARR $2.5B Codex 주간 활성 사용자 1.6M Anthropic 전체 ARR $14B AI 작성 코드 비율 41% 5. 3중 하네스 구조의 발견
GEODE 프로젝트를 살펴보면, 단일 하네스가 아닌 3중 적층 구조가 작동하고 있음을 확인할 수 있습습니다.
┌──────────────────────────────────────────────────────────────┐ │ ③ User Production Harness (CLAUDE.md Ecosystem) │ │ CANNOT/CAN 규칙 17+5, Socratic Gate 5Q, GAP Audit, │ │ 7-Step Workflow, 21 Skills, Memory Index, │ │ Quality Gates 3종, Gitflow 규약, 칸반 3-Checkpoint │ │ ┌──────────────────────────────────────────────────────────┐ │ │ │ ② Platform Harness (Claude Code) │ │ │ │ while(tool_use) 루프, Sub-agents, MCP, │ │ │ │ PolicyChain, Context Compaction, │ │ │ │ AutoMemory, Read/Edit/Bash/Grep/Agent │ │ │ │ ┌────────────────────────────────────────────────────┐ │ │ │ │ │ ① Foundation Model (Claude Opus 4.6) │ │ │ │ │ │ Raw reasoning + tool_use + structured output │ │ │ │ │ └────────────────────────────────────────────────────┘ │ │ │ └──────────────────────────────────────────────────────────┘ │ │ ↓ produces │ │ ★ GEODE (Autonomous Harness) │ └──────────────────────────────────────────────────────────────┘각 층이 하네스 6요소를 독립적으로 충족합니다:
H1 Context 학습 데이터 + 시스템 프롬프트 1M 윈도우, auto-compaction, CLAUDE.md 주입 Skills 트리거, Memory 로드, GAP Audit H2 Verification Self-consistency 도구 실행→결과 확인 루프 Quality Gate 3종 + E2E + Socratic 5Q H3 State 컨텍스트 윈도우 내 상태 ConversationContext, AutoMemory, Tasks 7-Step 워크플로우 상태, 칸반, progress.md H4 Tools tool_use 프로토콜 46+ 도구, MCP, ToolSearch GAP Audit(grep/Explore), Worktree, HEREDOC PR H5 HITL — DANGEROUS 도구 승인 Socratic Gate 사용자 승인, PR CI 루프 H6 Lifecycle — 세션 시작/종료 Board→GAP→Plan→Impl→Verify→Docs→PR→Board 5.1 ③의 진화 타임라인
GEODE v0.1(2026-02-21)부터 v0.27.1(2026-03-26)까지 32일간의 하네스 성숙도 추이입니다:
Phase 1 (v0.1-v0.14, 2/21-3/9) Phase 2 (v0.15-v0.20, 3/10-19) ─────────────────────────── ───────────────────────────── Ad-hoc, CLAUDE.md 부재 6-Layer 형식화, CANNOT/CAN 도입 Anthropic 단일 프로바이더 Port/Adapter DI, MCP 레지스트리 750 tests, 0 skills 1500+ tests, 18 skills 하네스 요소: 1/6 충족 하네스 요소: 4/6 충족 Phase 3 (v0.21-v0.24, 3/19-25) Phase 4 (v0.25-v0.27, 3/25-26) ─────────────────────────── ───────────────────────────── REODE 패턴 역수입 (5 skills) Memory 4-tier 시스템 프롬프트 주입 Quality Gate 3종 형식화 MCP 병렬 스타트업 (110s→15s) 3-Provider fallback chain Model-switch context guard 하네스 요소: 6/6 충족 6/6 + 적응형 컨텍스트 방어 21 skills, 36 hook events 3109+ tests, 221 modulesv0.1 750 ~50 0 0 1 1/6 v0.14 1000+ ~120 0 10 1 2/6 v0.20 1500+ ~180 18 25 1 4/6 v0.22 2500+ ~200 25 30 3 6/6 v0.27.1 3109+ 221 21 36 3 6/6+ 5.2 메타-하네스 패턴의 선행 사례
Karpathy autoresearch Raw LLM API program.md + git 상태 머신 + ratchet 극단적 단순 메타-하네스 Ralphton 우승팀 Coding agent (미공개) 133회 Socratic 라운드 + 모호성 점수 0.05 대회 특화 메타-하네스 OpenClaw LLM API + TS 런타임 Gateway(제어 플레인) + Agent Runtime(실행 플레인) 인프라 메타-하네스 GEODE Claude Code CLAUDE.md + 21 Skills + 7-Step Workflow 풀스택 메타-하네스
GEODE의 3중 구조가 고립된 현상이 아님을 보여주는 선행 사례입니다:
이 사례들의 공통 관측은 기반 하네스의 자유도를 제약함으로써 출력 품질이 향상됩니다.6. Soft Harness vs Hard Harness — 제약의 스펙트럼
하네스 설계의 핵심 설계 변수는 제약의 강도(hardness)입니다. 네 가지 유형이 관측됩니다:
유형 강제 방식 위반 가능성 대표 구현 Hard Constraint 코드 강제, 우회 불가 없음 샌드박스 파일시스템 제한, PolicyChain deny-list, 컨텍스트 윈도우 물리적 한계 Ratchet Constraint Soft 강제 + 자동 롤백 시도 가능, 실패 시 되돌림 autoresearch P4 ( if better: keep, else: revert)Gated Constraint 기본 Soft, 탐지 시 Hard 탐지 전까지 가능 GEODE HITL(DANGEROUS 도구만 Hard) Soft Constraint 프롬프트 기반, LLM 자기 규율 컨텍스트 압박 하에서 위반 가능 CLAUDE.md CANNOT 규칙, .cursorrules 관측: 가장 효과적인 하네스는 피라미드 구조를 사용합니다:
╱ Soft: 50+ 스타일·컨벤션 가이드라인 ╲ ╱ Gated: 20-30 조건부 제약 ╲ ╱ Ratchet: 5-10 자동 롤백 규칙 ╲ ╱ Hard: 3-5 절대 불가 (코드 강제) ╲ └──────────────────────────────────────────────┘②(Claude Code)와 ③(User Production Harness)의 제약 성격 차이:
제약 방식 코드(PolicyChain, 샌드박스) 텍스트(CANNOT 규칙, Socratic Gate) 실행 주체 런타임 강제 LLM 자기 규율 검증 도구 결과 파싱 품질 게이트 + 실측값 대조 상태 저장 ContextVar, 인메모리 파일(progress.md, MEMORY.md) 확장 MCP/도구 코드 추가 Skill .md 파일 추가 스코프 범용 프로젝트 특화 관측: ③은 Hard Constraint가 아닌 Soft+Ratchet 혼합이지만, GEODE의 최근 972 커밋에서 CANNOT 규칙 위반은 0건이었습니다. 이 사례에서는 구조화(명시적 테이블, 장애 시나리오 문서화, 3-Checkpoint)가 Soft Constraint의 준수율을 높이는 데 기여한 것으로 보입니다.
7. 4사분면 포지셔닝
축 정의
- X축: Minimal ↔ Comprehensive — 추상 레이어 수, 모델 수, 도구 수, 오케스트레이션 깊이
- Y축: Assisted ↔ Autonomous — 사람 주도 vs 에이전트 주도, 자율 의사결정 수준
전체 맵

사분면별 특성
Q1 (Comprehensive + Autonomous) 풀-피처 자율 플랫폼. 멀티 도구, 멀티 모델, 자율 의사결정. Devin, Manus, OpenHands, Windsurf, GEODE 대규모 자율 파이프라인, 무인 분석, 레거시 리팩토링 Q2 (Minimal + Autonomous) 경량 자율 에이전트. 좁은 스코프, 높은 자율성. SWE-agent, Codex CLI, AutoGen CLI 태스크 자동화, 연구용 벤치마킹, CI/CD 통합 Q3 (Minimal + Assisted) 가벼운 인간-AI 협업 도구. 빠른 프로토타이핑. Aider, Gemini CLI, CrewAI, OpenAI SDK, Pydantic AI, Mastra 페어 프로그래밍, 학습, MVP 개발 Q4 (Comprehensive + Assisted) 피처-리치 환경에서 인간이 주도. AI는 강력한 협업자. Claude Code, Cursor, Copilot, Kiro, LangGraph, ADK 프로덕션 개발, 엔터프라이즈 코딩, 팀 협업 3중 하네스의 사분면 궤적

Producer-Product Inversion: ②(Claude Code)는 Q4(Assisted)인데, 그것이 생산한 GEODE는 Q1(Autonomous)입니다.
생산 도구보다 Autonoumous 하네스가 더 자율적입니다. ③(User Production Harness)은 이 역전을 가능하게 하는 변환기(transformer)입니다 — Q4의 도구에 자율 워크플로우를 씌워 Q1 Autonomous 하네스을 만들어냅니다.8. 구현 성향 레이더 분석
8.1 주요 하네스 7축 비교
단순성 ████████░░ ██████░░░░ ████░░░░░░ ████████░░ ██████░░░░ ██████████ 결정론적 실행 ███░░░░░░░ ████████░░ █████████░ ████░░░░░░ ██████░░░░ ██████████ 멀티 모델 회복력 ████░░░░░░ █████░░░░░ █████████░ ██████░░░░ ████████░░ ██░░░░░░░░ 도메인 특화 ██░░░░░░░░ ████████░░ ████████░░ ██░░░░░░░░ ████░░░░░░ ██████████ 개발자 경험 █████████░ █████░░░░░ █████░░░░░ ████████░░ ██████░░░░ ███░░░░░░░ 자율 오케스트레이션 █████░░░░░ ███████░░░ █████████░ ██████░░░░ ████████░░ ████████░░ 컨텍스트 공학 ████████░░ ████████░░ ████████░░ ██████░░░░ ██████░░░░ ██████████ 8.2 설계 철학 스펙트럼

각 하네스의 설계 철학을 토폴로지 결정론 × 모델 다양성 두 축으로 분류하면 다음과 같습니다:
GEODE는 Fixed Topology + Multi-Model 조합입니다. LangGraph StateGraph로 파이프라인 토폴로지를 컴파일 타임에 고정하되, 3사 9모델의 런타임 폴백으로 실행 회복력을 확보합니다. 이는 결정론적 실행 + 확률적 회복의 하이브리드 구조로, autoresearch(결정론 극단)와 Claude Code(동적 극단) 사이에 위치합니다.9. 횡단 트렌드 7선
2026년 3월 기준, 주요 프론티어 하네스들에서 공통적으로 관측되는 트렌드입니다:
Trend 1: MCP의 유니버설 프로토콜화
Anthropic이 시작한 MCP(Model Context Protocol)가 OpenAI, Google, Microsoft에 의해 채택되었습니다. 97M 월간 SDK 다운로드, 5,800+ 서버를 기록하고 있습니다. 2025년 12월 Linux Foundation(AAIF)에 기증되었습니다. 2026 로드맵: Transport 확장성, Agent 간 통신(Tasks primitive), 거버넌스, 엔터프라이즈 준비(SSO, 감사 추적, 게이트웨이)입니다.
Trend 2: 하네스 기여도에 대한 인식 확산
커뮤니티 내에서 "모델 성능이 수렴할수록 하네스의 상대적 기여도가 높아진다"는 인식이 확산되고 있습니다. LangChain의 Terminal Bench 사례(하네스만 변경, +13.7%p), SWE-bench Pro의 scaffold 분산(±11.6%p)이 이를 뒷받침하는 데이터 포인트로 인용됩니다. 다만 이 인식이 모든 태스크 유형에 일반화 가능한지는 추가 검증이 필요합니다.
Trend 3: Sub-agent 아키텍처의 표준화
Claude Code(Agent Teams), GitHub Copilot(Fleet), Codex CLI(멀티에이전트), Devin(멀티인스턴스) 등 주요 하네스들이 병렬 서브에이전트를 지원합니다. 공통 패턴: 메모리 격리, 도구 상속, 결과 요약 머지입니다.
Anthropic 내부 평가에 따르면 멀티에이전트가 싱글에이전트 대비 90.2% 성능 향상을 보였습니다. 병렬화 가능 태스크에서 +81%, 순차 태스크에서 -70%입니다 (Google Research).Trend 4: 메모리의 계층화
3단계 메모리 전략이 다수 하네스에서 관측됩니다:
- Ephemeral: 세션 내 (ConversationContext)
- Persistent Project: 프로젝트 수준 (CLAUDE.md, specs)
- Learned/Adaptive: 자동 학습 (AutoMemory, Cursor Memory Tool)
GEODE는 4-Tier(Organization > Project > Session + UserProfile)로 이를 확장했습니다.
Trend 5: TypeScript 생태계의 부상
Mastra(22K stars, 300K npm/week), Claude Agent SDK(TS), OpenAI Agents SDK(TS), Google ADK(TS) — TypeScript 기반 에이전트 프레임워크가 증가하며 Python 중심이었던 생태계의 다변화 추이가 관측됩니다.
Trend 6: Spec-driven vs Vibe Coding의 분기
Kiro(AWS)의 Spec-driven 철학, GEODE의 Socratic Gate, Ralphton 우승팀의 모호성 점수 0.05이 있습니다. 프로덕션 하네스는 "코딩 전에 명세"로 수렴합니다.
Vibe Coding ←─────────────────────────────→ Spec-driven │ │ 단일 프롬프트 Socratic Gate 5Q 테스트 없음 3109+ tests, 3-gate No CLAUDE.md Comprehensive CLAUDE.md 프로토타이핑 프로덕션 시스템Trend 7: 안전 아키텍처의 분기
애플리케이션 레이어 훅 "과잉 확신하지만 선의의 에이전트" Claude Code 커널 레벨 샌드박싱 "잠재적 적대적 에이전트" Codex CLI 6-Layer PolicyChain "계층적 권한 분리" GEODE 양쪽 모두 정당한 신뢰 가정에 기반하며, 배포 환경에 따라 선택이 갈립니다.
10. 관측된 실패 모드 12유형
프론티어 하네스들에서 반복적으로 관측되는 실패 패턴을 분류합니다:
F1 Context Explosion 대형 도구 결과가 윈도우를 가득 채움 토큰 인지 프루닝, 도구 결과 요약 매우 높음 F2 Model Switch Overflow 큰 모델→작은 모델 전환 시 컨텍스트 미적응 선제적 컨텍스트 축소 (GEODE v0.27.1) 중간 F3 Hallucinated Architecture 존재하지 않는 프로젝트 패턴 생성 CLAUDE.md 명시적 아키텍처 문서 높음 F4 Rework Loop 동일 변경을 되돌리고 다시 적용 반복 Ratchet(P4), 테스트-퍼스트 워크플로우 높음 F5 Constraint Drift 컨텍스트 압박 하에 soft 제약 무시 Hard constraint 코드화, 피라미드 구조 중간 F6 Over-engineering 불필요한 복잡성 추가 Simplicity Selection(P10), Socratic Gate 매우 높음 F7 Stale Context 만료된 정보로 의사결정 세션 TTL, 메모리 갱신 훅 중간 F8 Anchoring Bias 이전 분석 결과에 고정 Clean Context(이전 분석 배제) 높음 (파이프라인) F9 Cost Explosion 통제 없는 API 호출, live 테스트 무단 실행 고정 시간 예산(P3), 비용 가드 높음 F10 Multi-agent Conflict 동시 에이전트의 동일 리소스 수정 세션 키 격리, .owner 파일, Lane Queue 중간 F11 Version Desync 버전 번호가 파일별로 불일치 명시적 동기화 가드 (GEODE 4곳 필수) 높음 F12 Fake Success 테스트 실패를 성공으로 보고 Anti-deception checklist, 실측 검증 중간 JetBrains NeurIPS 2025 발견: LLM 생성 요약이 에이전트 궤적을 13-15% 연장시킵니다. 결정론적 관측 마스킹(코드 기반, LLM 비사용)이 동등 성능에서 50% 비용 절감을 달성했습니다. GEODE의 "Tier 1: 결정론적 요약, Tier 2: LLM 내러티브(opt-in)" 접근을 지지하는 외부 증거입니다.
11. 결론: 하네스 성숙도 모델
5단계 성숙도 모델
본 리포트에서 관측한 패턴들을 종합하면, 하네스 성숙도를 5단계로 분류할 수 있습니다:
L0 No Harness 0/6 Raw LLM API 호출 실험 L1 Instruction File 1-2/6 .cursorrules, 기본 AGENTS.md 프로토타입 L2 Platform Harness 3-4/6 Claude Code 기본, Codex CLI 기본 MVP L3 Customized Platform 5-6/6 Claude Code + CLAUDE.md + Skills 프로덕션 L4 Meta-Harness 6/6 + 적응형 GEODE 3중 구조, autoresearch 성숙 시스템 
GEODE의 좌표
하네스 성숙도 L4 (Meta-Harness) 사분면 위치 Q1 (Comprehensive + Autonomous) 설계 철학 Fixed Topology + Multi-Model Hybrid 제약 구조 피라미드 (Hard 5 + Ratchet 3 + Gated 20 + Soft 50+) 생산 도구 위치 Q4 → Q1 변환기 (③ User Production Harness) 최종 관측
- 하네스는 3중입니다. Foundation Model → Platform Harness → User Production Harness. 각 층은 독립적 하네스 6요소를 충족하며, 상위 층이 하위 층의 자유도를 제약합니다.
- Producer-Product Inversion이 관측됩니다. Assisted(Q4) 도구로 Autonomous(Q1)를 만드는 구조에서, ③(User Production Harness)이 변환 레이어로 기능하고 있습니다.
- Soft Constraint의 준수율이 예상보다 높습니다. GEODE의 972 커밋에서 CANNOT 위반 0건이 관측되었습니다. 구조화된 명시적 테이블과 Checkpoint를 동반할 때, 프롬프트 기반 제약이 높은 준수율을 보이는 것으로 나타났습니다. 단, 이는 단일 프로젝트의 관측이며 일반화에는 추가 검증이 필요합니다.
- 엔지니어링 관심사의 이동이 관측됩니다. 프롬프트 엔지니어링(2025 초) → 컨텍스트 엔지니어링(2025 중) → 하네스 엔지니어링(2026)으로 커뮤니티의 초점이 이동하는 추세가 Schmid, Fowler, Gupta 등에 의해 보고되고 있습니다.
- 벤치마크에서 하네스 변수의 영향이 유의미합니다. SWE-bench Pro에서 동일 모델의 scaffold 차이가 11.6%p를 만들었습니다. 모델 선택과 하네스 설계 모두 성능에 기여하며, 특히 모델 성능이 수렴하는 구간에서 하네스의 상대적 기여도가 높아지는 경향이 관측됩니다.
참고 문헌
- Epoch AI, "SWE-bench Verified Leaderboard" (2026)
- Scale Labs, "SWE-bench Pro Public Leaderboard" (2026)
- Vals AI, "Terminal-Bench 2.0" (2026)
- METR, "Early 2025 AI Experienced OS Developer Productivity Study" (2025)
- METR, "Uplift Update" (2026-02)
- Stack Overflow, "2025 Developer Survey — AI Section" (2025)
- Faros AI, "AI Software Engineering Productivity Analysis" (2026)
- Google, "2024 DORA Report" (2024)
- Veracode, "AI-Generated Code Security Risks" (2026)
- HelpNetSecurity, "AI Coding Agent Security: Claude Code, Codex, Gemini" (2026-03)
- Gartner, "40% Enterprise Apps AI Agents by 2026" (2025-08)
- Gartner, "40% Agentic AI Project Cancellations by 2027" (2025-06)
- MarketsAndMarkets, "AI Agents Market $52.62B by 2030" (2026)
- LangChain, "Evaluating Deep Agents CLI on Terminal-Bench 2.0" (2026)
- Anthropic, "Building Agents with Claude Agent SDK" (2026)
- OpenAI, "Agents SDK Documentation" (2026)
- Google, "Agent Development Kit Documentation" (2026)
- JetBrains, "LLM-Generated Summaries Cause Trajectory Elongation" (NeurIPS 2025, arXiv 2508.21433)
- Phil Schmid, "The Importance of Agent Harness in 2026" (2026)
- MCP Manager, "MCP Adoption Statistics" (2026)
- Builder.io, "Codex vs Claude Code: Architecture Deep Dive" (2026)
- Google Research, "Towards a Science of Scaling Agent Systems" (2026)
- Arunkumar et al., "Agentic AI: Architectures, Taxonomies, and Evaluation" (arXiv 2601.12560, 2026-01)
- "AI Agents vs. Agentic AI: A Conceptual Taxonomy" (arXiv 2505.10468, 2025)
- OECD, "The Agentic AI Landscape and Its Conceptual Foundations" (Paper No. 56, 2026-02)
- INTERFACE EU, "An Autonomy-Based Classification of AI Agents" (2026)
- Swarmia, "Five Levels of AI Coding Agent Autonomy" (2026)
- Martin Fowler / ThoughtWorks, "Harness Engineering" (2026)
- OpenAI, "Harness Engineering: Leveraging Codex in an Agent-First World" (2026)
- Aakash Gupta, "2025 Was Agents. 2026 Is Agent Harnesses." (2026)
- StackOne, "The AI Agent Tools Landscape: 120+ Tools Mapped" (2026)
- Microsoft Azure, "AI Agent Design Patterns" (2026)
- Linux Foundation AAIF, "MCP + A2A Protocol Governance" (2025-12)
'Harness > report' 카테고리의 다른 글
v0.36.0 릴리스: Gateway Runtime 완성, 11개 구조적 결함 전수 해소 (0) 2026.03.30 Scaffolding: Harness Configuration Points, GEODE 생산 하네스인 Claude Code 구성 레이어 실측 (0) 2026.03.26