Agent
-
Agent Eval Pipeline: Swiss Cheese Grader 구현 리포트이코에코(Eco²)/Agent 2026. 2. 10. 02:29
DATE: 2026-02-10Author: Claude Code(Opus 4.6), mangowhoiscloudScope: apps/chat_worker/ — Eval Pipeline Phase 1+2+3+4Status: ✅ Phase 4 완료 (Async Fire-and-Forget + 165 tests ALL PASS)ADR: https://rooftopsnow.tistory.com/276PRs: #548, #549 (feat/chat-eval-pipeline → develop)E2E 검증 리포트(internal): docs/reports/eval-pipeline-e2e-verification-report.mdRelated#문서링크ADR-1Swiss Cheese Model for LLM Evaluat..
-
ADR: Chat LangGraph Eval Pipeline이코에코(Eco²)/Plans 2026. 2. 9. 22:09
항목 내용 Agent / Model Claude Code Max x20 / Opus 4.6 Author Eco² Backend Team Date 2026-02-09 Version v2.2 (Round 4 Expert Review PASSED, avg 98.8/100) Purpose Eco² 채팅 에이전트의 응답 품질을 다층 방어(Swiss Cheese Model)로 평가하는 LangGraph 기반 Eval 파이프라인 설계 Status 설계 완료 — 구현 착수 가능 Review Expert Review Loop Tracker 참조 1. ..
-
LLM-as-Judge 루브릭 설계: 정보이론 관점의 해상도 분석과 가이드Knowledge Base/Foundations 2026. 2. 9. 16:55
Author: Claude Opus 4.6, mangowhoiscloudPurpose: LLM-as-Judge 루브릭 설계 방법론 (Knowledge Base)Date: 2026-02-09Executive SummaryMulti-Axis Rubric이 최종 등급으로 변환되는 과정에서 의도하지 않은 정보 손실이 발생합니다. 14축 × 5점(32.51 bits) 입력이 4개 등급(2.00 bits)으로 압축되면 이론적 잔존율은 6.15%에 불과합니다. 이 글은 Model-based 루브릭 평가 시스템을 구축할 때 어느 지점에서 해상도가 사라지는지를 정보이론으로 추적하고, 심리측정학과 최신 LLM 평가 연구를 교차하여 설계 원칙을 정리합니다.핵심 공식: Resolution_Loss = H(Input) - H(..
-
Swiss Cheese Model for LLM Evaluation: 단일 Grader는 반드시 실패한다Knowledge Base/Foundations 2026. 2. 9. 12:10
Executive SummaryJames Reason(1990)의 Swiss Cheese Model은 복잡 시스템에서 사고가 단일 실패가 아닌 다중 방어층의 구멍이 동시에 정렬될 때 발생한다는 프레임워크입니다. 본 문서는 이 모델을 LLM Agent 평가에 적용합니다.Anthropic의 "Demystifying Evals for AI Agents"(2026.01)는 Agent 평가의 3가지 Grader 유형(code-based, model-based, human)과 평가 하네스 설계를 체계적으로 정리합니다. 각 Grader 유형을 치즈 슬라이스로, 각 Grader의 한계를 구멍으로 모델링하며, 구멍이 정렬되는 순간, 즉 결함이 모든 평가층을 통과하는 시나리오를 서술합니다.1. Swiss Cheese Mo..
-
LLM 에이전트 평가(Evals) 가이드Knowledge Base/Foundations 2026. 1. 31. 22:32
Author: Claude Code, mangowhoiscloudReference(26.01.19): Anthropic Engineering - Demystifying Evals for AI AgentsPurpose: 에이전트 개발을 위한 Knowledge BaseDate: 2026-01-31 Executive Summary에이전트 평가는 단순한 프롬프트-응답 테스트를 넘어, 다중 턴 상호작용, 도구 호출, 환경 상태 변화를 종합적으로 측정해야 합니다. 이 문서는 Anthropic의 에이전트 평가 방법론을 정리하고, 적용 가이드를 제시합니다. 핵심 공식:Eval = Input + Agent Execution + Grading Logic → Success Measurement1. 에이전트 평가의 기본 구조..
-
OpenClaw Gateway - Pi Agent 시스템 분석 리포트Knowledge Base/Foundations 2026. 1. 31. 15:23
Author: Claude Code, mangowhoiscloudPurpose: LLM 에이전트/어시스턴스 제작에 활용할 수 있는 아키텍처 인사이트 도출Target: https://github.com/openclaw/openclawDate: 2026-01-31Executive SummaryOpenClaw는 Gateway + Pi Agent 이중 구조의 멀티채널 AI 어시스턴트 플랫폼입니다.LangGraph를 사용하지 않고 TypeScript로 자체 구현된 에이전트 시스템으로, 다음과 같은 핵심 특징을 가집니다:특징설명Gateway 중심모든 채널/에이전트의 중앙 제어 플레인Session 격리agent:{id}:{context} 형식의 세션 키로 컨텍스트 분리Multi-Agent RoutingBinding ..
-
이코에코(Eco²) Agent: Token Streaming 트러블슈팅이코에코(Eco²)/Agent 2026. 1. 19. 12:35
검증 일시: 2026-01-19 12:30 UTC검증 환경: k8s-master (13.209.44.249)검증 결과: ❌ 토큰 스트리밍 미작동1. 문제 요약1.1 증상SSE 엔드포인트에서 토큰 이벤트(stage: "token")가 수신되지 않음.답변이 done 이벤트의 result.answer에 전체 텍스트로 한 번에 전달됨.1.2 테스트 세션항목값Session IDf8d57c29-b802-4cc4-aad1-fb4bf9b946e5Job ID444f81d5-8826-4a5d-978c-ebbb5e125f05Message"페트병 어떻게 버려?"1.3 수신된 SSE 이벤트queued (started) → intent (waste) → waste_rag → weather → aggregator → answer ..
-
이코에코(Eco²) Agent: Multi-turn 대화 E2E 검증 완료이코에코(Eco²)/Agent 2026. 1. 19. 11:29
검증 일시: 2026-01-19 03:05 UTC검증 환경: k8s-master (13.209.44.249)관련 PR: #434 (fix: use redis_streams for ProgressNotifier and DomainEventBus)검증 결과: ✅ PASS1. 검증 개요1.1 검증 목적LangGraph 체크포인터(PostgreSQL + Redis Cache-Aside)를 통한 멀티턴 대화 상태 영속화 및 맥락 유지 검증.1.2 핵심 검증 항목항목설명결과세션 상태 영속화동일 session_id로 여러 메시지 처리 시 상태 유지✅ Pass체크포인트 누적turn마다 step이 연속적으로 증가✅ Passintent_history 누적이전 대화의 intent가 히스토리에 누적✅ Pass맥락 유지이전 턴..