LLM-as-Judge
-
LLM-as-Judge: Cohen's Kappa의 해상도 함정, 4-cat으로 일관성이 올랐다는 착각Knowledge Base/Reports 2026. 2. 20. 16:33
Author: Claude Code Opus 4.6, mangowhoiscloudDate: 2026-02-20Category: Evaluation Methodology / Statistical RigorExecutive SummaryLLM-as-Judge, 평가, 어노테이션 파이프라인에서 "평가 카테고리를 줄이면 Cohen's Kappa가 올라간다"는 설계 관행이 널리 퍼져 있습니다. 본 포스팅에서는 연속 스케일 [1.0, 5.0, step=0.1] (41단계)을 4-범주로 축소할 때 Unweighted Cohen's Kappa가 +0.19~+0.64 상승하는 것을 시뮬레이션으로 확인하되, 이 수치 상승의 상당 부분이 명목 척도 지표를 순서형 데이터에 적용할 때 발생하는 측정론적 허상(measuremen..