Anthropic
-
LLM 에이전트 평가(Evals) 가이드Knowledge Base/Foundations 2026. 1. 31. 22:32
Author: Claude Code, mangowhoiscloudReference(26.01.19): Anthropic Engineering - Demystifying Evals for AI AgentsPurpose: 에이전트 개발을 위한 Knowledge BaseDate: 2026-01-31 Executive Summary에이전트 평가는 단순한 프롬프트-응답 테스트를 넘어, 다중 턴 상호작용, 도구 호출, 환경 상태 변화를 종합적으로 측정해야 합니다. 이 문서는 Anthropic의 에이전트 평가 방법론을 정리하고, 적용 가이드를 제시합니다. 핵심 공식:Eval = Input + Agent Execution + Grading Logic → Success Measurement1. 에이전트 평가의 기본 구조..