홈
태그
방명록

분류 전체보기 (275)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

mango_fr 개발기 mango_fr 개발기

컨텐츠 검색

RUBRIC

LLM-as-Judge: Cohen's Kappa의 해상도 함정, 4-cat으로 일관성이 올랐다는 착각
Knowledge Base/Reports 2026. 2. 20. 16:33

Author: Claude Code Opus 4.6, mangowhoiscloudDate: 2026-02-20Category: Evaluation Methodology / Statistical RigorExecutive SummaryLLM-as-Judge, 평가, 어노테이션 파이프라인에서 "평가 카테고리를 줄이면 Cohen's Kappa가 올라간다"는 설계 관행이 널리 퍼져 있습니다. 본 포스팅에서는 연속 스케일 [1.0, 5.0, step=0.1] (41단계)을 4-범주로 축소할 때 Unweighted Cohen's Kappa가 +0.19~+0.64 상승하는 것을 시뮬레이션으로 확인하되, 이 수치 상승의 상당 부분이 명목 척도 지표를 순서형 데이터에 적용할 때 발생하는 측정론적 허상(measuremen..
LLM-as-Judge 루브릭 설계: 정보이론 관점의 해상도 분석과 가이드
Knowledge Base/Foundations 2026. 2. 9. 16:55

Author: Claude Opus 4.6, mangowhoiscloudPurpose: LLM-as-Judge 루브릭 설계 방법론 (Knowledge Base)Date: 2026-02-09Executive SummaryMulti-Axis Rubric이 최종 등급으로 변환되는 과정에서 의도하지 않은 정보 손실이 발생합니다. 14축 × 5점(32.51 bits) 입력이 4개 등급(2.00 bits)으로 압축되면 이론적 잔존율은 6.15%에 불과합니다. 이 글은 Model-based 루브릭 평가 시스템을 구축할 때 어느 지점에서 해상도가 사라지는지를 정보이론으로 추적하고, 심리측정학과 최신 LLM 평가 연구를 교차하여 설계 원칙을 정리합니다.핵심 공식: Resolution_Loss = H(Input) - H(..

이전

1

다음

인기포스트

LINK

GitHub
LinkedIn
Resume

ADMIN

admin 글쓰기

ABOUT ME

🎓 부산대학교 정보컴퓨터공학과 학사: 2017.03 - 2023.08
☁️ Rakuten Symphony Jr. Cloud Engineer: 2024.12.09 - 2025.08.31
🏆 2025 AI 새싹톤 우수상 수상: 2025.10.30 - 2025.12.02
🌏 이코에코(Eco²) 백엔드/인프라 고도화 중: 2025.12 - Present

Designed by Mango

티스토리툴바