RUBRIC
-
LLM-as-Judge: Cohen's Kappa의 해상도 함정, 4-cat으로 일관성이 올랐다는 착각Knowledge Base/Reports 2026. 2. 20. 16:33
Author: Claude Code Opus 4.6, mangowhoiscloudDate: 2026-02-20Category: Evaluation Methodology / Statistical RigorExecutive SummaryLLM-as-Judge, 평가, 어노테이션 파이프라인에서 "평가 카테고리를 줄이면 Cohen's Kappa가 올라간다"는 설계 관행이 널리 퍼져 있습니다. 본 포스팅에서는 연속 스케일 [1.0, 5.0, step=0.1] (41단계)을 4-범주로 축소할 때 Unweighted Cohen's Kappa가 +0.19~+0.64 상승하는 것을 시뮬레이션으로 확인하되, 이 수치 상승의 상당 부분이 명목 척도 지표를 순서형 데이터에 적용할 때 발생하는 측정론적 허상(measuremen..
-
LLM-as-Judge 루브릭 설계: 정보이론 관점의 해상도 분석과 가이드Knowledge Base/Foundations 2026. 2. 9. 16:55
Author: Claude Opus 4.6, mangowhoiscloudPurpose: LLM-as-Judge 루브릭 설계 방법론 (Knowledge Base)Date: 2026-02-09Executive SummaryMulti-Axis Rubric이 최종 등급으로 변환되는 과정에서 의도하지 않은 정보 손실이 발생합니다. 14축 × 5점(32.51 bits) 입력이 4개 등급(2.00 bits)으로 압축되면 이론적 잔존율은 6.15%에 불과합니다. 이 글은 Model-based 루브릭 평가 시스템을 구축할 때 어느 지점에서 해상도가 사라지는지를 정보이론으로 추적하고, 심리측정학과 최신 LLM 평가 연구를 교차하여 설계 원칙을 정리합니다.핵심 공식: Resolution_Loss = H(Input) - H(..