eval
-
Agent Eval Pipeline: Swiss Cheese Grader 구현 리포트이코에코(Eco²)/Agent 2026. 2. 10. 02:29
DATE: 2026-02-10Author: Claude Code(Opus 4.6), mangowhoiscloudScope: apps/chat_worker/ — Eval Pipeline Phase 1+2+3+4Status: ✅ Phase 4 완료 (Async Fire-and-Forget + 165 tests ALL PASS)ADR: https://rooftopsnow.tistory.com/276PRs: #548, #549 (feat/chat-eval-pipeline → develop)E2E 검증 리포트(internal): docs/reports/eval-pipeline-e2e-verification-report.mdRelated#문서링크ADR-1Swiss Cheese Model for LLM Evaluat..
-
ADR: Chat LangGraph Eval Pipeline이코에코(Eco²)/Plans 2026. 2. 9. 22:09
항목 내용 Agent / Model Claude Code Max x20 / Opus 4.6 Author Eco² Backend Team Date 2026-02-09 Version v2.2 (Round 4 Expert Review PASSED, avg 98.8/100) Purpose Eco² 채팅 에이전트의 응답 품질을 다층 방어(Swiss Cheese Model)로 평가하는 LangGraph 기반 Eval 파이프라인 설계 Status 설계 완료 — 구현 착수 가능 Review Expert Review Loop Tracker 참조 1. ..
-
Swiss Cheese Model for LLM Evaluation: 단일 Grader는 반드시 실패한다Knowledge Base/Foundations 2026. 2. 9. 12:10
Executive SummaryJames Reason(1990)의 Swiss Cheese Model은 복잡 시스템에서 사고가 단일 실패가 아닌 다중 방어층의 구멍이 동시에 정렬될 때 발생한다는 프레임워크입니다. 본 문서는 이 모델을 LLM Agent 평가에 적용합니다.Anthropic의 "Demystifying Evals for AI Agents"(2026.01)는 Agent 평가의 3가지 Grader 유형(code-based, model-based, human)과 평가 하네스 설계를 체계적으로 정리합니다. 각 Grader 유형을 치즈 슬라이스로, 각 Grader의 한계를 구멍으로 모델링하며, 구멍이 정렬되는 순간, 즉 결함이 모든 평가층을 통과하는 시나리오를 서술합니다.1. Swiss Cheese Mo..