'eval' 태그의 글 목록

Agent Eval Pipeline: Swiss Cheese Grader 구현 리포트

이코에코(Eco²)/Agent 2026. 2. 10. 02:29

DATE: 2026-02-10Author: Claude Code(Opus 4.6), mangowhoiscloudScope: apps/chat_worker/ — Eval Pipeline Phase 1+2+3+4Status: ✅ Phase 4 완료 (Async Fire-and-Forget + 165 tests ALL PASS)ADR: https://rooftopsnow.tistory.com/276PRs: #548, #549 (feat/chat-eval-pipeline → develop)E2E 검증 리포트(internal): docs/reports/eval-pipeline-e2e-verification-report.mdRelated#문서링크ADR-1Swiss Cheese Model for LLM Evaluat..

ADR: Chat LangGraph Eval Pipeline

이코에코(Eco²)/Agent 2026. 2. 9. 22:09

항목내용Agent / ModelClaude Code Max x20 / Opus 4.6AuthorEco² Backend TeamDate2026-02-09Versionv2.2 (Round 4 Expert Review PASSED, avg 98.8/100)PurposeEco² 채팅 에이전트의 응답 품질을 다층 방어(Swiss Cheese Model)로 평가하는 LangGraph 기반 Eval 파이프라인 설계Status설계 완료 — 구현 착수 가능ReviewExpert Review Loop Tracker 참조1. 목적 및 배경1.1 Why Eval Pipeline?현재 chat_worker의 feedback_node는 Rule-Based + LLM Phase 1-4 평가를 수행하고 있으나, 다음과 같은 한계가 ..

Swiss Cheese Model for LLM Evaluation: 단일 Grader는 반드시 실패한다

Knowledge Base/Foundations 2026. 2. 9. 12:10

Executive SummaryJames Reason(1990)의 Swiss Cheese Model은 복잡 시스템에서 사고가 단일 실패가 아닌 다중 방어층의 구멍이 동시에 정렬될 때 발생한다는 프레임워크입니다. 본 문서는 이 모델을 LLM Agent 평가에 적용합니다.Anthropic의 "Demystifying Evals for AI Agents"(2026.01)는 Agent 평가의 3가지 Grader 유형(code-based, model-based, human)과 평가 하네스 설계를 체계적으로 정리합니다. 각 Grader 유형을 치즈 슬라이스로, 각 Grader의 한계를 구멍으로 모델링하며, 구멍이 정렬되는 순간, 즉 결함이 모든 평가층을 통과하는 시나리오를 서술합니다.1. Swiss Cheese Mo..

ABOUT ME

mango_fr 개발기 mango_fr 개발기

티스토리툴바