LLM-as-Judge: Cohen's Kappa의 해상도 함정, 4-cat으로 일관성이 올랐다는 착각

Knowledge Base/Reports 2026. 2. 20. 16:33

Author: Claude Code Opus 4.6, mangowhoiscloud

Date: 2026-02-20
Category: Evaluation Methodology / Statistical Rigor

Executive Summary

LLM-as-Judge, 평가, 어노테이션 파이프라인에서 "평가 카테고리를 줄이면 Cohen's Kappa가 올라간다"는 설계 관행이 널리 퍼져 있습니다. 본 포스팅에서는 연속 스케일 [1.0, 5.0, step=0.1] (41단계)을 4-범주로 축소할 때 Unweighted Cohen's Kappa가 +0.19~+0.64 상승하는 것을 시뮬레이션으로 확인하되, 이 수치 상승의 상당 부분이 명목 척도 지표를 순서형 데이터에 적용할 때 발생하는 측정론적 허상(measurement artifact) 임을 실증합니다.

핵심 수치: Unweighted Δκ = +0.19 (σ=1.0) | Weighted Δκ = -0.032 (동일 조건) | Entropy 손실 = 60.9%

1. 문제 인식: 왜 이것이 함정인가

1.1 널리 퍼진 설계 관행

평가 시스템을 설계할 때 다음과 같은 주장을 흔히 접하게 됩니다:

"연속 스케일 대신 4단계 범주형을 사용하여 평가자 간 일관성(Cohen's Kappa) +0.15~0.20 향상. 대신 평가 해상도가 손실된다."

이 주장은 두 가지를 암시합니다:

4-cat 설계가 일관성을 실질적으로 개선한다
해상도 손실은 일관성 향상의 합리적 트레이드오프이다

본 포스팅에서는 양쪽 모두를 검증합니다.

1.2 Cohen's Kappa 복습

Cohen's Kappa는 두 평가자 간의 일치도를 우연 일치(chance agreement)로 보정하여 측정합니다:

p_o: 관측된 일치 비율 (observed agreement)
p_e: 우연에 의한 기대 일치 비율 (expected agreement by chance)

kappa = 1이면 완벽한 일치, kappa = 0이면 우연 수준, kappa < 0이면 우연보다 낮은 일치입니다.

전제
Kappa는 우연 일치를 보정하므로, 카테고리 수가 달라도 공정한 비교가 가능하다는 것이 일반적 기대입니다.
그러나 이 전제가 Unweighted Kappa에서는 성립하지 않습니다.

1.3 Unweighted vs Weighted: 순서형 척도에서의 치명적 차이

Unweighted Kappa는 일치/불일치를 이진(binary)으로만 판단합니다. 5점 척도에서 평가자 A가 4.2, 평가자 B가 4.3을 부여하면 — 0.1 차이임에도 — 완전한 불일치로 처리됩니다.

Quadratic Weighted Kappa는 순서형 척도에서의 "근접 불일치(near-miss)"를 부분적으로 인정합니다.

가중치 행렬 w_ij를 사용합니다:

i = j이면 w = 1 (완전 일치)
|i - j| = k - 1이면 w = 0 (최대 불일치)
중간 거리는 비례적으로 감소

순서형 척도(Likert, 점수 등)에서 Unweighted Kappa를 사용하는 것은 "4.2와 4.3의 불일치"와 "1.0과 5.0의 불일치"를 동일하게 취급하는 것이므로, 해당 척도의 순서 정보를 완전히 무시합니다.

2. 실험 설계

2.1 시뮬레이션 모델

두 평가자의 행동을 다음과 같이 모델링합니다:

Ground Truth:   gt_i ~ Uniform(1.0, 5.0)
Rater 1:        r1_i = clip(gt_i + ε₁, 1.0, 5.0),  ε₁ ~ N(0, σ²)
Rater 2:        r2_i = clip(gt_i + ε₂, 1.0, 5.0),  ε₂ ~ N(0, σ²)

σ (노이즈 표준편차): 평가자의 불확실성/불일치 정도를 제어합니다
σ = 0.2: 매우 일관된 평가자 (±0.4 범위 내 95% 응답)
σ = 0.6: 전형적인 어노테이션 노이즈
σ = 1.0: 높은 불일치

2.2 이산화(Discretization)

동일한 연속 평가를 두 가지 방식으로 이산화합니다:

방식	카테고리 수	해상도	이산화 규칙
41-level	41	0.1 단위	`round((x - 1.0) × 10)` → 인덱스 0~40
4-cat	4	1.0 단위	`floor(x - 1.0)` → 인덱스 0~3

핵심: 양 방식은 동일한 연속 평가에서 파생됩니다. 평가자의 실제 행동은 동일하며, 기록 방식만 다릅니다.

2.3 측정 지표

지표	목적	해석
Unweighted Cohen's Kappa	정확 일치 기반 일관성	카테고리 수 변화에 민감
Quadratic Weighted Kappa	순서형 척도 일관성	근접 불일치를 부분 인정
Shannon Entropy	정보량(bits)	높을수록 해상도 보존
Mutual Information	두 평가자 간 공유 정보	실질적 합의 정보량

2.4 실험 규모

표본 크기: 5,000 관측/시행
반복 횟수: 200회 (Unweighted), 100회 (Weighted + 정보이론)
노이즈 수준: σ = {0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 1.0, 1.2, 1.5}

2.5 시뮬레이션 모델의 한계

본 시뮬레이션에는 두 가지 알려진 한계가 있습니다:

경계 클리핑 편향(Boundary Clipping Bias): clip(1.0, 5.0) 연산이 경계 빈(bin 0, bin 40)에 확률 질량을 축적시킵니다. σ = 0.6에서 약 12%, σ = 1.0에서 약 20%의 값이 클리핑되어 경계 빈이 내부 빈 대비 2.6~4.4배 높은 밀도를 가집니다. 이로 인해 Section 4.1의 P_e 계산(균등 분포 가정)은 엄밀한 값이 아닌 근사적 설명입니다.
균등 분포 가정: 실세계 평가 분포는 중심 집중(central tendency)이나 J자형(대부분 높은 점수)인 경우가 많습니다. 균등 분포에서의 정량적 결과(Kappa 절대값, 엔트로피 손실 비율)는 분포 형태에 따라 달라질 수 있으나, 카테고리 축소 시 Unweighted Kappa가 상승하되 Weighted Kappa는 안정적이라는 정성적 결론은 분포에 무관하게 유지됩니다.

3. 결과

3.1 Unweighted Kappa: 주장의 검증

σ (노이즈)	κ(41-level)	κ(4-cat)	Δκ	P_o(41)	P_o(4)
0.1	0.259	0.887	+0.628	0.277	0.915
0.2	0.132	0.776	+0.644	0.153	0.832
0.3	0.090	0.663	+0.573	0.112	0.747
0.4	0.072	0.561	+0.489	0.096	0.671
0.5	0.062	0.475	+0.413	0.088	0.606
0.6	0.057	0.405	+0.348	0.084	0.554
0.7	0.054	0.348	+0.294	0.083	0.511
0.8	0.053	0.305	+0.252	0.084	0.479
1.0	0.053	0.241	+0.188	0.089	0.431
1.2	0.052	0.194	+0.142	0.096	0.399
1.5	0.051	0.150	+0.098	0.109	0.372

"+0.15-0.20" 주장은 σ ≈ 1.0 (고노이즈 영역)에서만 성립합니다.

전형적 어노테이션 환경(σ = 0.3-0.6)에서의 Δκ는 +0.35-+0.57로, 주장보다 2 3배 큰 차이가 발생합니다.

3.2 Weighted Kappa: Unweighted 상승분의 정체

σ	κ_w(41-level)	κ_w(4-cat)	Δκ_w	Unweighted Δκ 판정
0.2	0.972	0.932	-0.039	Unweighted 차이는 허상
0.4	0.899	0.858	-0.041	Unweighted 차이는 허상
0.6	0.801	0.763	-0.037	Unweighted 차이는 허상
0.8	0.690	0.657	-0.033	Unweighted 차이는 허상
1.0	0.586	0.553	-0.032	Unweighted 차이는 허상
1.2	0.489	0.459	-0.030	Unweighted 차이는 허상
1.5	0.369	0.343	-0.026	Unweighted 차이는 허상

(python scripts 기반 시뮬레이션 200회 시행 기준, Δκ_w의 표준오차 SE ≈ 0.001~0.002로 모든 차이가 통계적으로 유의합니다.)

모든 노이즈 수준에서 Δκ_w < 0.05이며, 4-cat이 오히려 소폭 낮습니다.

Weighted Kappa로 측정하면, 4-cat 변환은 일관성을 개선하지 않습니다. 오히려 미세하게 악화시킵니다. Unweighted Kappa에서 보이는 거대한 차이는 41단계에서 0.1 차이의 정확 불일치가 과도하게 처벌받는 것에 기인합니다. 이것은 Unweighted Kappa라는 지표가 설계된 대로 동작한 결과이지만, 그 결과를 "일관성이 개선되었다"고 해석하는 것이 오류입니다.

왜 Weighted Kappa가 순서형 척도의 올바른 기준인가?

Unweighted Kappa는 명목 척도(nominal scale)를 위해 설계되었습니다 — "사과/배/포도"처럼 카테고리 간 거리(distance) 개념이 없는 데이터입니다. 순서형 척도(1점~5점)에서 "3.2 vs 3.3"과 "1.0 vs 5.0"을 동일한 불일치로 취급하는 것은 척도의 순서 구조(ordinal structure)를 무시하는 것입니다. Fleiss & Cohen (1973)은 Quadratic Weighted Kappa가 Intraclass Correlation Coefficient (ICC)와 수학적으로 동치임을 증명했으며, 이는 순서형/연속형 데이터에서 Weighted Kappa의 적절성을 이론적으로 뒷받침합니다.

3.3 정보이론적 손실 정량화

σ	H(41) bits	H(4) bits	Entropy 손실	MI(41)	MI(4)	MI 손실
0.2	5.347	2.000	62.6%	2.019	1.247	38.2%
0.4	5.317	2.000	62.4%	1.265	0.851	32.7%
0.6	5.261	1.999	62.0%	0.899	0.575	36.1%
0.8	5.185	1.998	61.5%	0.683	0.381	44.3%
1.0	5.099	1.995	60.9%	0.542	0.250	53.9%
1.2	5.001	1.987	60.3%	0.450	0.165	63.3%
1.5	4.831	1.966	59.3%	0.369	0.090	75.5%

4-cat 변환은 Shannon Entropy 기준으로 약 60%의 정보를 일관되게 파괴합니다. 두 평가자 간 Mutual Information(공유 정보량)은 노이즈가 증가할수록 손실 비율이 급격히 상승하여, σ = 1.5에서는 75.5%의 합의 정보가 소멸합니다.

4. 해석: 왜 이런 일이 발생하는가

4.1 우연 일치의 비대칭성

Kappa의 분모 1 - P_e에서 핵심이 발생합니다. 카테고리가 균등 분포일 때:

41-level:  P_e = 1/41 ≈ 0.024    →  1 - P_e ≈ 0.976
4-cat:     P_e = 1/4  = 0.250    →  1 - P_e = 0.750

41단계에서는 우연 일치가 거의 없으므로(2.4%), Kappa의 분모가 큽니다. 관측된 일치(P_o)가 낮더라도 분모가 크므로 Kappa는 자연스럽게 낮아집니다.

4범주에서는 우연 일치가 25%로 높지만, 관측된 일치도 높습니다(0.1 차이가 "일치"로 변환되므로).

P_o와 P_e 모두 상승하지만, P_o가 P_e보다 더 빠르게 상승하므로 Kappa 수치가 높아집니다.

4.2 해상도 축소의 효과: "일치"의 재정의

4-cat 변환이 수행하는 것은 일관성 개선이 아니라 "일치"의 정의를 느슨하게 변경하는 것입니다.

41-level에서의 "일치":
  Rater A = 3.2,  Rater B = 3.3  →  불일치 (0.1 차이)
  Rater A = 3.2,  Rater B = 3.2  →  일치   (정확 일치만)

4-cat에서의 "일치":
  Rater A = 3.2,  Rater B = 3.3  →  일치 (둘 다 카테고리 2)
  Rater A = 3.2,  Rater B = 3.9  →  일치 (둘 다 카테고리 2)
  Rater A = 2.9,  Rater B = 3.1  →  불일치 (카테고리 1 vs 2)

4-cat에서는 원래 척도 기준 최대 0.99 차이까지 "일치"로 흡수됩니다.

동시에, 원래 0.1 차이(2.99 vs 3.01)가 경계에 걸리면 "불일치"로 증폭됩니다. 이것은 개선이 아니라 노이즈의 재배치입니다.

4.3 Weighted Kappa가 허상을 제거하는 이유

Weighted Kappa는 가중치 행렬 w_ij를 통해 "근접 불일치"를 부분 인정합니다:

41-level, |i-j| = 1 (0.1 차이):
  w = 1 - (1/40)² = 0.999    → 거의 완전 일치로 취급

41-level, |i-j| = 40 (4.0 차이):
  w = 1 - (40/40)² = 0.000   → 완전 불일치로 취급

0.1 차이가 w = 0.999로 처리되므로, 41단계에서 "아슬아슬하게 빗나간" 경우의 과도한 처벌이 사라집니다.

결과적으로 41단계의 Weighted Kappa는 이미 높은 수준(σ = 0.2에서 0.972)이며, 4-cat 변환으로 개선될 여지가 없습니다.

4.4 수축(Shrinkage)으로서의 카테고리 축소

4-cat 변환은 일종의 강제 수축(forced shrinkage) 으로 이해할 수 있습니다. 41개 범주의 세밀한 차이를 4개 범주로 압축하면, 극단적 불일치가 물리적으로 제거됩니다. 이는 편향-분산 트레이드오프(bias-variance tradeoff)와 유사한 구조입니다: Kappa 추정의 분산(variance)은 감소하지만, 실질적 불일치를 은닉하는 편향(bias)이 증가합니다.

통계학에서의 합리적 수축(예: Wilson Score의 가상 관측, James-Stein 추정량)은 원 데이터를 보존하면서 추정을 안정화합니다. 반면 카테고리 축소는 원 데이터를 비가역적으로 파괴합니다. 3.2점과 3.8점을 가진 두 모델은 4-cat 시스템에서 동일한 카테고리에 배정되어 구분이 불가능해집니다.

4.5 인지 부하 효과: 시뮬레이션이 포착하지 못하는 실세계 요인

본 시뮬레이션은 평가자 행동을 동일하게 고정한 상태에서 이산화 방식만 변형합니다. 이는 통계적 허상을 분리하기 위한 설계이지만, 실세계에서 중요한 요인을 포착하지 못합니다: 인지 부하 감소에 의한 실질적 일관성 개선입니다.

Miller (1956)의 고전적 연구에 따르면, 인간은 약 7 ± 2개의 범주를 안정적으로 변별할 수 있습니다. 41단계 척도는 이 한계를 크게 초과하므로, 실제 인간 평가자에게 4범주 척도를 제공하면:

범주 정의를 작업 기억(working memory)에 유지할 수 있습니다
경계 사례의 모호성이 감소합니다
평가자 훈련이 단순해집니다

따라서 실제 실험에서는 카테고리 축소가 진정한 일관성 개선을 동반할 수 있습니다. 그러나 이러한 진정한 개선은 본 포스팅에서 식별한 측정론적 허상과 혼재(confound)됩니다. 둘을 분리하려면 카테고리 축소 전후로 Weighted Kappa 또는 Krippendorff's Alpha를 비교해야 합니다. Unweighted Kappa만으로는 진정한 개선과 허상을 구분할 수 없습니다.

5. 가이드

5.1 순서형 척도에서는 Weighted Kappa를 사용하십시오

LLM 평가, Likert 척도 어노테이션 등 순서가 있는 평가에서 Unweighted Kappa를 보고하는 것은 부적절합니다.

Quadratic Weighted Kappa(또는 최소한 Linear Weighted Kappa)를 사용해야 합니다.

from sklearn.metrics import cohen_kappa_score

# Unweighted — 순서형에 부적절
kappa_uw = cohen_kappa_score(rater1, rater2)

# Quadratic Weighted — 순서형에 적절
# 주의: labels 파라미터를 명시해야 미관측 카테고리가 있어도 정확한 가중치 행렬이 생성됩니다
kappa_qw = cohen_kappa_score(rater1, rater2, labels=list(range(41)), weights='quadratic')

5.2 다수 평가자 시나리오: Krippendorff's Alpha와 ICC

Cohen's Kappa는 본질적으로 2명의 평가자를 위한 지표입니다. 실제 어노테이션 파이프라인에서 3명 이상의 평가자가 참여하는 경우, 다음 대안을 고려하십시오:

Krippendorff's Alpha: 순서형, 구간형, 비율형 데이터를 네이티브로 지원하며, 결측치와 다수 평가자를 자연스럽게 처리합니다. NLP 어노테이션 분야에서 표준으로 자리잡고 있습니다 (Artstein & Poesio, 2008).

import krippendorff

# data: (raters × items) 행렬, 결측값은 None
alpha = krippendorff.alpha(data, level_of_measurement='ordinal')

ICC (Intraclass Correlation Coefficient): Fleiss & Cohen (1973)은 Quadratic Weighted Kappa가 2명의 평가자에 대한 ICC와 수학적으로 동치임을 증명했습니다. 연속형/순서형 데이터에서 이미 ICC를 사용 중인 팀이라면, QW Kappa로의 전환이 불필요할 수 있습니다.

지표	평가자 수	척도 유형	결측치	카테고리 수 변화에 대한 견고성
Unweighted Kappa	2명	명목	미지원	취약 (본 포스팅의 주제)
Weighted Kappa (QW)	2명	순서/구간	미지원	견고
Fleiss' Kappa	다수	명목	미지원	취약
Krippendorff's Alpha	다수	명목/순서/구간/비율	지원	견고
ICC	다수	연속/순서	부분 지원	견고

5.3 카테고리 축소가 필요한 경우

카테고리 축소 자체가 항상 잘못된 것은 아닙니다. 다음 조건을 확인하십시오:

인접 카테고리의 실질적 구분 불가능성: 평가자가 3.2와 3.3을 체계적으로 구분할 수 없다면, 해상도를 줄이는 것이 합리적입니다. 그러나 이 판단은 Kappa 수치가 아닌, 인접 카테고리 간 혼동 행렬(confusion matrix) 분석에 기반해야 합니다.
Weighted Kappa 기준으로도 개선되는지 확인: 카테고리 축소 전후로 Weighted Kappa가 개선되지 않는다면, 그 축소는 정보 파괴일 뿐입니다.
정보 손실을 정량화하십시오: Shannon Entropy 또는 Mutual Information의 변화를 보고하여, 해상도 손실의 크기를 투명하게 공개해야 합니다.

5.4 보고 시 권고 사항

평가 시스템의 일관성을 보고할 때는 다음을 포함하십시오:

보고 항목	이유
Weighted Kappa (quadratic)	순서형 척도의 적절한 일관성 지표
카테고리 수	해상도 수준의 투명한 공개
관측된 일치 비율 (P_o)	Kappa 계산의 기반 데이터
우연 일치 비율 (P_e)	보정의 크기를 이해하기 위함
정보량 (Entropy / MI)	해상도 손실의 정량적 증거

Unweighted Kappa만을 보고하면서 "카테고리를 줄여 일관성을 개선했다"고 주장하는 것은, 진정한 일관성 개선과 측정 해상도 하락을 구분하지 못하게 합니다. Weighted Kappa나 Krippendorff's Alpha를 병행 보고해야 독자가 개선의 실체를 판단할 수 있습니다.

6. 결론

"4-cat 설계로 Cohen's Kappa +0.15~0.20 향상"이라는 주장은 조건부 사실이지만 오도적입니다.

Unweighted Kappa에서 해당 범위의 Δ는 σ ≈ 1.0의 고노이즈 조건에서만 관측됩니다. 전형적 어노테이션 환경에서의 Δ는 주장보다 2~3배 큽니다.
순서형 척도에 적합한 Quadratic Weighted Kappa에서는 차이가 사실상 없거나 오히려 소폭 하락합니다 (Δκ_w = -0.026 ~ -0.041).
이 "개선"의 대가는 Shannon Entropy 기준 ~60%, Mutual Information 기준 최대 75%의 정보 파괴입니다.

Unweighted Kappa 수치의 상승은 반드시 평가자의 일관성이 개선된 것을 의미하지 않으며, 상당 부분은 불일치를 감지하는 측정 도구의 해상도가 떨어진 결과입니다. 체온계의 눈금을 "저체온 / 정상 / 미열 / 고열" 4단계로 바꾸면 두 체온계의 "일치도"는 올라가지만, 37.2°C와 37.8°C의 임상적으로 유의미한 차이를 더 이상 측정할 수 없는 것과 같습니다.

실제 환경에서 카테고리 축소는 인지 부하 감소를 통해 진정한 일관성 개선을 동반할 수 있습니다. 그러나 이 개선을 확인하려면 Weighted Kappa 또는 Krippendorff's Alpha로 검증해야 합니다. Unweighted Kappa만으로는 허상과 실체를 구분할 수 없습니다.

Appendix: 시뮬레이션 코드

본 분석의 재현을 위한 핵심 코드입니다.

import numpy as np
from itertools import combinations

def cohens_kappa(r1, r2, n_cat):
    """Unweighted Cohen's Kappa from confusion matrix."""
    cm = np.zeros((n_cat, n_cat), dtype=np.float64)
    for a, b in zip(r1, r2):
        cm[a, b] += 1.0
    cm /= cm.sum()
    p_o = np.trace(cm)
    p_e = np.sum(cm.sum(axis=0) * cm.sum(axis=1))
    if p_e >= 1.0:
        return 1.0
    return (p_o - p_e) / (1.0 - p_e)

def weighted_kappa_quadratic(r1, r2, n_cat):
    """Quadratic Weighted Cohen's Kappa for ordinal scales."""
    cm = np.zeros((n_cat, n_cat), dtype=np.float64)
    for a, b in zip(r1, r2):
        cm[a, b] += 1.0
    cm /= cm.sum()
    w = np.zeros((n_cat, n_cat))
    for i in range(n_cat):
        for j in range(n_cat):
            w[i, j] = 1.0 - ((i - j) ** 2) / ((n_cat - 1) ** 2)
    row_m = cm.sum(axis=1)
    col_m = cm.sum(axis=0)
    expected = np.outer(row_m, col_m)
    p_o_w = np.sum(w * cm)
    p_e_w = np.sum(w * expected)
    if p_e_w >= 1.0:
        return 1.0
    return (p_o_w - p_e_w) / (1.0 - p_e_w)

# Simulation
rng = np.random.default_rng(42)
n_samples, n_trials, sigma = 5000, 200, 0.6

for _ in range(n_trials):
    gt = rng.uniform(1.0, 5.0, n_samples)
    r1 = np.clip(gt + rng.normal(0, sigma, n_samples), 1.0, 5.0)
    r2 = np.clip(gt + rng.normal(0, sigma, n_samples), 1.0, 5.0)

    # 41-level discretization
    r1_41 = np.clip(np.round((r1 - 1.0) * 10).astype(int), 0, 40)
    r2_41 = np.clip(np.round((r2 - 1.0) * 10).astype(int), 0, 40)

    # 4-category discretization
    r1_4 = np.clip(np.floor(r1 - 1.0).astype(int), 0, 3)
    r2_4 = np.clip(np.floor(r2 - 1.0).astype(int), 0, 3)

    # Compare
    k_uw_41 = cohens_kappa(r1_41, r2_41, 41)
    k_uw_4  = cohens_kappa(r1_4, r2_4, 4)
    k_qw_41 = weighted_kappa_quadratic(r1_41, r2_41, 41)
    k_qw_4  = weighted_kappa_quadratic(r1_4, r2_4, 4)

References

Cohen, J. (1960). "A Coefficient of Agreement for Nominal Scales." Educational and Psychological Measurement, 20(1), 37-46.
Cohen, J. (1968). "Weighted Kappa: Nominal Scale Agreement Provision for Scaled Disagreement or Partial Credit." Psychological Bulletin, 70(4), 213-220.
Fleiss, J. L., & Cohen, J. (1973). "The Equivalence of Weighted Kappa and the Intraclass Correlation Coefficient as Measures of Reliability." Educational and Psychological Measurement, 33(3), 613-619.
Brennan, R. L., & Prediger, D. J. (1981). "Coefficient Kappa: Some Uses, Misuses, and Alternatives." Educational and Psychological Measurement, 41(3), 687-699.
Miller, G. A. (1956). "The Magical Number Seven, Plus or Minus Two." Psychological Review, 63(2), 81-97.
Preston, C. C., & Colman, A. M. (2000). "Optimal Number of Response Categories in Rating Scales." Acta Psychologica, 104(1), 1-15.
Artstein, R., & Poesio, M. (2008). "Inter-Coder Agreement for Computational Linguistics." Computational Linguistics, 34(4), 555-596.
Krippendorff, K. (2004). Content Analysis: An Introduction to Its Methodology. Sage Publications.
Gwet, K. L. (2014). Handbook of Inter-Rater Reliability: The Definitive Guide to Measuring the Extent of Agreement Among Raters. Advanced Analytics, LLC.

'Knowledge Base > Reports' 카테고리의 다른 글

DeepSeek Technical Report: MoE Architecture (0)	2026.02.26
Anthropic's philosopher answers your questions (0)	2026.02.26
Kimi K2 / K2.5 Technical Report: Agentic Intelligence의 초안 (0)	2026.02.26
ML 기반 LLM 에이전트: 루브릭 엔지니어링 (2)	2026.02.21
Cursor state.vscdb 16GB 분석 리포트 (0)	2026.01.15

ABOUT ME

mango_fr 개발기 mango_fr 개발기

Executive Summary

1. 문제 인식: 왜 이것이 함정인가

1.1 널리 퍼진 설계 관행

1.2 Cohen's Kappa 복습

1.3 Unweighted vs Weighted: 순서형 척도에서의 치명적 차이

2. 실험 설계

2.1 시뮬레이션 모델

2.2 이산화(Discretization)

2.3 측정 지표

2.4 실험 규모

2.5 시뮬레이션 모델의 한계

3. 결과

3.1 Unweighted Kappa: 주장의 검증

3.2 Weighted Kappa: Unweighted 상승분의 정체

3.3 정보이론적 손실 정량화

4. 해석: 왜 이런 일이 발생하는가

4.1 우연 일치의 비대칭성

4.2 해상도 축소의 효과: "일치"의 재정의

4.3 Weighted Kappa가 허상을 제거하는 이유

4.4 수축(Shrinkage)으로서의 카테고리 축소

4.5 인지 부하 효과: 시뮬레이션이 포착하지 못하는 실세계 요인

5. 가이드

5.1 순서형 척도에서는 Weighted Kappa를 사용하십시오

5.2 다수 평가자 시나리오: Krippendorff's Alpha와 ICC

5.3 카테고리 축소가 필요한 경우

5.4 보고 시 권고 사항

6. 결론

Appendix: 시뮬레이션 코드

References

'Knowledge Base > Reports' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Executive Summary

1. 문제 인식: 왜 이것이 함정인가

1.1 널리 퍼진 설계 관행

1.2 Cohen's Kappa 복습

1.3 Unweighted vs Weighted: 순서형 척도에서의 치명적 차이

2. 실험 설계

2.1 시뮬레이션 모델

2.2 이산화(Discretization)

2.3 측정 지표

2.4 실험 규모

2.5 시뮬레이션 모델의 한계

3. 결과

3.1 Unweighted Kappa: 주장의 검증

3.2 Weighted Kappa: Unweighted 상승분의 정체

3.3 정보이론적 손실 정량화

4. 해석: 왜 이런 일이 발생하는가

4.1 우연 일치의 비대칭성

4.2 해상도 축소의 효과: "일치"의 재정의

4.3 Weighted Kappa가 허상을 제거하는 이유

4.4 수축(Shrinkage)으로서의 카테고리 축소

4.5 인지 부하 효과: 시뮬레이션이 포착하지 못하는 실세계 요인

5. 가이드

5.1 순서형 척도에서는 Weighted Kappa를 사용하십시오

5.2 다수 평가자 시나리오: Krippendorff's Alpha와 ICC

5.3 카테고리 축소가 필요한 경우

5.4 보고 시 권고 사항

6. 결론

Appendix: 시뮬레이션 코드

References

'Knowledge Base > Reports' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바