Logistic Regression: 확률을 모델링하는 해석 가능한 방법

Knowledge Base/Foundations 2026. 2. 8. 19:42

https://en.wikipedia.org/wiki/Logistic_regression

Author: Claude Opus 4.6, mangowhoiscloud
Purpose: 로지스틱 회귀의 수학적 기초부터 인과 추론 응용까지 Knowledge Base
Date: 2026-02-08

Executive Summary

Logistic Regression은 이진 결과(binary outcome)에 대한 확률을 직접 모델링하는 판별 모델(discriminative model)입니다. 선형 회귀가 연속값을 예측하는 데 반해, 로지스틱 회귀는 로그 오즈(log-odds)의 선형성을 가정하여 확률을 [0, 1] 범위로 제한합니다.
핵심 위치: 로지스틱 회귀는 분류(classification)와 인과 추론(causal inference) 두 영역의 교차점에 있습니다. 분류에서는 "이 관측치가 어느 클래스에 속하는가"를 예측하고, 인과 추론에서는 "처치(treatment)를 받을 확률 은 얼마인가"를 추정합니다. 후자의 응용이 Propensity Score Matching의 수학적 기초입니다.
본 문서의 범위: 시그모이드 함수의 유도, Maximum Likelihood Estimation, 오즈비 해석, 모델 진단, 그리고 Propensity Score 추정에서의 역할까지 다룹니다.

1. 왜 선형 회귀로는 안 되는가

1.1 이진 결과의 본질

종속 변수가 0 또는 1인 문제에서 선형 회귀 Y = β₀ + β₁X를 적용하면 두 가지 문제가 발생합니다:

문제 1: 범위 위반
X가 충분히 크거나 작으면 예측값이 [0, 1]을 벗어남
→ P(Y=1|X=100) = 1.3 ← 확률이 1 초과 (무의미)
→ P(Y=1|X=-50) = -0.2 ← 확률이 0 미만 (무의미)

문제 2: 등분산 가정 위반
이진 변수의 분산 = p(1-p) → p에 의존
→ p=0.5일 때 분산 0.25, p=0.01일 때 분산 0.0099
→ 선형 회귀의 등분산(homoscedasticity) 가정 구조적으로 위반

1.2 해결: 확률 공간의 변환

핵심 아이디어는 확률을 직접 모델링하지 않고, 확률의 변환(transformation)을 모델링하는 것입니다.

확률 p ∈ (0, 1)
       ↓ odds 변환
오즈 p/(1-p) ∈ (0, ∞)
       ↓ log 변환
로그 오즈 log(p/(1-p)) ∈ (-∞, +∞)    ← 이제 실수 전체에서 선형 모델 적용 가능

이 2단계 변환을 logit 함수라 합니다:

logit(p) = log(p/(1-p)) = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ

logit 함수의 역함수가 바로 시그모이드(sigmoid)입니다:

p = σ(z) = 1 / (1 + e^(-z))

여기서 z = β₀ + β₁X₁ + ... + βₖXₖ (선형 결합)

"왜 logit 변환인가?"에 대한 정확한 답은 logit이 베르누이 분포의 canonical link function이기 때문입니다. Generalized Linear Model(GLM) 프레임워크에서, 지수족(exponential family) 분포의 canonical link는 충분통계량(sufficient statistic)과 자연모수(natural parameter)를 직접 연결하며, 이것이 MLE의 수렴성과 추론의 효율성을 보장합니다.

2. 시그모이드 함수의 수학적 성질

2.1 핵심 성질 4가지

σ(z) = 1 / (1 + e^(-z))

범위	0 < σ(z) < 1	출력이 항상 유효한 확률
대칭	σ(-z) = 1 - σ(z)	원점 대칭, P(Y=0) = 1 - P(Y=1)로 자연스럽게 연결
미분	σ'(z) = σ(z)(1 - σ(z))	자기 자신으로 미분 표현 가능 → gradient 계산이 간결
단조증가	σ'(z) > 0 ∀z	z가 커지면 확률도 항상 증가 (해석 용이)

2.2 미분의 유도

이 미분은 MLE의 gradient descent에서 핵심이므로, 유도 과정을 알아야 합니다:

σ(z) = (1 + e^(-z))^(-1)

dσ/dz = -1 · (1 + e^(-z))^(-2) · (-e^(-z))     [chain rule]
       = e^(-z) / (1 + e^(-z))²
       = [1 / (1 + e^(-z))] · [e^(-z) / (1 + e^(-z))]
       = σ(z) · [(1 + e^(-z) - 1) / (1 + e^(-z))]
       = σ(z) · [1 - 1/(1 + e^(-z))]
       = σ(z) · (1 - σ(z))

이 성질 덕분에 로지스틱 회귀의 gradient는 (예측값 - 실제값) × 입력이라는 직관적 형태가 됩니다.

후술할 MLE의 score equation에서 이것이 명확해집니다.

2.3 Decision Boundary

시그모이드의 출력이 0.5가 되는 지점은 z = 0입니다:

σ(0) = 1 / (1 + e^0) = 1/2

따라서 decision boundary:
β₀ + β₁X₁ + ... + βₖXₖ = 0

이것은 입력 공간에서의 초평면(hyperplane)입니다. 로지스틱 회귀가 선형 분류기(linear classifier)라 불리는 이유입니다.
비선형 시그모이드를 사용하지만, decision boundary 자체는 선형입니다.

3. Maximum Likelihood Estimation (MLE)

3.1 왜 OLS가 아닌 MLE인가

선형 회귀에서 사용하는 Ordinary Least Squares(OLS)는 잔차의 제곱합을 최소화합니다. 그러나 이진 결과에서는:

OLS 목적함수: min Σ(yᵢ - p̂ᵢ)²

문제:
1. 오차 분포가 정규분포가 아님 (베르누이 분포)
2. 등분산 가정 위반 (var = p(1-p))
3. 해(solution)가 닫힌 형태(closed form)로 존재하지 않음
4. OLS로 추정한 계수는 비효율적(inefficient)

MLE는 관측 데이터가 나올 확률(likelihood)을 최대화하는 모수를 찾습니다.
이 접근은 분포 가정에 정확히 부합하며, 점근적으로(asymptotically) 가장 효율적인 추정량을 제공합니다.

3.2 우도 함수의 유도

데이터: {(x₁, y₁), (x₂, y₂), ..., (xₙ, yₙ)} 여기서 yᵢ ∈ {0, 1}

각 관측치의 확률:

P(Yᵢ = yᵢ | Xᵢ) = pᵢ^yᵢ · (1 - pᵢ)^(1 - yᵢ)

여기서 pᵢ = σ(β₀ + β₁x₁ᵢ + ... + βₖxₖᵢ)

이 표현이 핵심입니다:

yᵢ = 1이면: pᵢ¹ · (1-pᵢ)⁰ = pᵢ ✓
yᵢ = 0이면: pᵢ⁰ · (1-pᵢ)¹ = 1-pᵢ ✓

관측치가 독립이라면, 우도(likelihood)는 개별 확률의 곱입니다:

L(β) = Π P(Yᵢ = yᵢ | Xᵢ, β) = Π pᵢ^yᵢ · (1-pᵢ)^(1-yᵢ)

로그 우도(log-likelihood)를 취하면 곱이 합으로 변환되어 최적화가 용이해집니다:

ℓ(β) = log L(β) = Σ [yᵢ log(pᵢ) + (1-yᵢ) log(1-pᵢ)]

이 로그 우도의 부호를 뒤집으면 Binary Cross-Entropy Loss입니다. 딥러닝에서 이진 분류의 손실 함수가 BCE = -Σ [y log(p̂) + (1-y) log(1-p̂)]인 이유가 바로 여기에 있습니다. MLE와 동일한 최적화 문제입니다.

3.3 Score Equation과 최적화

로그 우도를 β에 대해 미분하면 score equation을 얻습니다:

∂ℓ/∂βⱼ = Σ (yᵢ - pᵢ) · xᵢⱼ = 0

여기서 pᵢ = σ(βᵀxᵢ)

이 식의 직관: (실제값 - 예측값) × 입력의 합이 0이 되도록 β를 조정합니다.
이 방정식은 닫힌 형태의 해가 없습니다 (pᵢ가 β의 비선형 함수이므로). 따라서 반복 알고리즘이 필요합니다:

Newton-Raphson (Iteratively Reweighted Least Squares, IRLS):

β^(t+1) = β^(t) - H^(-1) · ∇ℓ

여기서:
∇ℓ = Xᵀ(y - p)                          [score vector / gradient]
H = -XᵀWX                                [Hessian / 정보 행렬]
W = diag(pᵢ(1-pᵢ))                       [가중치 행렬]

수렴 조건: |β^(t+1) - β^(t)| < ε (보통 ε = 10⁻⁸)

IRLS의 핵심: 각 반복에서 가중치 W가 업데이트됩니다. pᵢ(1-pᵢ)는 예측 확률에 따라 달라지므로, 확률이 0.5 근처인 관측치(불확실한 관측치)에 더 큰 가중치가 부여됩니다.

3.4 수렴 실패 (Complete/Quasi-Complete Separation)

Complete Separation:
X₁ < 3이면 항상 Y=0, X₁ ≥ 3이면 항상 Y=1
→ 완벽한 분리가 가능하면, β₁ → ∞로 발산
→ MLE가 수렴하지 않음

Quasi-Complete Separation:
경계점에서 한 클래스만 존재
→ 일부 계수가 매우 커지고, 표준오차가 폭발

진단:
- 반복 수가 기본값(25)에 도달
- 계수의 절대값이 비정상적으로 큼 (|β| > 10)
- 표준오차가 매우 큼 (SE > 100)

해결:
1. Firth's Penalized Likelihood (bias reduction)
2. Exact Logistic Regression (소표본)
3. Regularization (Ridge/L2: λΣβⱼ² 추가)

Q: 데이터에서 로지스틱 회귀가 수렴하지 않았다면 어떻게 대응하나요?
A: 첫 번째 단계는 분리(separation) 확인이며, Firth's method가 표준 해결책입니다.

4. 계수 해석: 오즈비(Odds Ratio)

4.1 오즈와 오즈비의 정의

오즈(Odds) = P(Y=1) / P(Y=0) = p / (1-p)

로지스틱 회귀 모델:
log(p/(1-p)) = β₀ + β₁X₁

→ p/(1-p) = e^(β₀ + β₁X₁)

X₁이 1단위 증가할 때:

X₁ = x일 때 오즈:    e^(β₀ + β₁x)
X₁ = x+1일 때 오즈:  e^(β₀ + β₁(x+1)) = e^(β₀ + β₁x) · e^(β₁)

오즈비(OR) = e^(β₁)

핵심: e^(β₁)은 X₁이 1단위 증가할 때 오즈가 몇 배 변하는가를 나타냅니다. 이것은 X₁의 값에 관계없이 일정합니다.

비례 오즈 가정(proportional odds assumption)이며, 로지스틱 회귀의 가장 중요한 가정 중 하나입니다.

4.2 해석 가이드

β₁ > 0	OR > 1	X₁ 증가 → 오즈 증가 (양의 관계)
β₁ = 0	OR = 1	X₁과 Y 독립 (관계 없음)
β₁ < 0	OR < 1	X₁ 증가 → 오즈 감소 (음의 관계)
β₁ = 0.693	OR = 2.0	X₁ 1단위 증가 시 오즈 2배
β₁ = -0.693	OR = 0.5	X₁ 1단위 증가 시 오즈 절반

4.3 주의: 오즈비 ≠ 확률비

흔한 오류: "OR = 2.0이면 확률이 2배"  ← 틀림

실제:
p = 0.1일 때 오즈 = 0.111, 2배 오즈 = 0.222 → p = 0.182 (1.82배, 2배 아님)
p = 0.5일 때 오즈 = 1.0,   2배 오즈 = 2.0   → p = 0.667 (1.33배, 2배 아님)
p = 0.9일 때 오즈 = 9.0,   2배 오즈 = 18.0  → p = 0.947 (1.05배, 2배 아님)

OR과 확률비(RR, Relative Risk)는 사건이 드문 경우(rare event, p < 0.1)에만 근사적으로 일치합니다.
이것이 역학(epidemiology)에서 "rare disease assumption"이라 불리는 이유입니다.

4.4 다변량에서의 해석: 조건부 효과

log(p/(1-p)) = β₀ + β₁X₁ + β₂X₂ + β₃X₃

e^(β₁)의 의미:
"X₂와 X₃를 고정(control)한 상태에서,
 X₁이 1단위 증가할 때의 오즈비"

이것이 ceteris paribus(다른 조건이 동일할 때) 해석이며, 관측 연구(observational study)에서 교란 변수(confounder)를 통제하는 핵심 메커니즘입니다.

5. 모델 가정과 진단

5.1 로지스틱 회귀의 가정

로지스틱 회귀는 선형 회귀보다 가정이 적지만, 여전히 중요한 가정이 있습니다:

로그 오즈의 선형성	logit(p)와 연속형 X의 관계가 선형	편향된 계수, 잘못된 예측	Box-Tidwell test, GAM 비교
독립 관측	관측치 간 독립	표준오차 과소추정, 신뢰구간 왜곡	데이터 구조 확인 (클러스터, 시계열)
다중공선성 없음	독립변수 간 높은 상관 없음	계수 불안정, SE 증가	VIF > 10 경고
충분한 표본	이벤트 당 최소 10-20 관측치 (EPV)	과적합, 수렴 실패	EPV = (소수 클래스 수) / (변수 수)

정규분포 가정은 없습니다. 이것은 선형 회귀와의 핵심 차이입니다.
로지스틱 회귀는 잔차의 정규성을 가정하지 않습니다. 종속변수가 베르누이 분포를 따르기 때문입니다.

5.2 로그 오즈 선형성 검정 (Box-Tidwell)

가장 자주 위반되는 가정입니다. 연속형 변수 X에 대해:

# Box-Tidwell test 개념
# H₀: logit(p)와 X의 관계가 선형
# 모델에 X·log(X) 상호작용항 추가
# X·log(X)의 계수가 유의하면 → 선형성 가정 위반

import statsmodels.api as sm
import numpy as np

# 원래 모델
X_orig = df[['age', 'income']]

# Box-Tidwell 항 추가
df['age_logage'] = df['age'] * np.log(df['age'])
df['income_logincome'] = df['income'] * np.log(df['income'])

X_bt = df[['age', 'income', 'age_logage', 'income_logincome']]
model_bt = sm.Logit(y, sm.add_constant(X_bt)).fit()

# age_logage, income_logincome의 p-value 확인
# p < 0.05 → 해당 변수의 선형성 위반 → 변환 필요 (log, 다항식, 스플라인)

5.3 적합도 검정 (Hosmer-Lemeshow)

절차:
1. 예측 확률로 관측치를 10개 그룹(decile)으로 분할
2. 각 그룹에서 관측 이벤트 수 vs 기대 이벤트 수 비교
3. 카이제곱 검정 수행

H₀: 모델이 데이터에 적합함
H₁: 모델이 데이터에 부적합

p > 0.05 → 적합도 문제 없음 (H₀ 기각 실패)
p ≤ 0.05 → 적합도 문제 존재

주의: 대표본에서 검정력이 과도하게 높아져 사소한 차이도 유의하게 나올 수 있음
→ 보완으로 calibration plot(관측 vs 예측) 시각적 확인 권장

5.4 다중공선성 진단 (VIF)

VIF(Xⱼ) = 1 / (1 - Rⱼ²)

Rⱼ²: Xⱼ를 다른 모든 독립변수로 회귀했을 때의 결정계수

VIF < 5:  정상
5 ≤ VIF < 10: 주의 (해석에 영향 가능)
VIF ≥ 10: 심각한 다중공선성 → 변수 제거 또는 결합 필요

Propensity Score 추정에서의 특수한 점: PS 모델의 목적이 예측(prediction)이지 개별 계수 해석이 아니라면, 다중공선성이 심각한 문제가 되지 않을 수 있습니다. 그러나 수렴 실패나 극단적 PS 값(0 또는 1 근처)의 원인이 될 수 있으므로 여전히 모니터링해야 합니다.

6. 모델 평가: 판별력과 보정력

6.1 판별력 (Discrimination): AUC-ROC

ROC 곡선:
- X축: FPR = FP / (FP + TN) = 1 - Specificity
- Y축: TPR = TP / (TP + FN) = Sensitivity (= Recall)
- 모든 threshold에 대해 (FPR, TPR) 쌍을 그림

AUC (Area Under the ROC Curve):
- 0.5: 랜덤 (분류 능력 없음)
- 0.7-0.8: 수용 가능 (acceptable)
- 0.8-0.9: 우수 (excellent)
- 0.9+: 탁월 (outstanding)

확률적 해석:
AUC = P(p̂(양성) > p̂(음성))
"무작위로 뽑은 양성 케이스의 예측 확률이
 무작위로 뽑은 음성 케이스의 예측 확률보다 높을 확률"

6.2 보정력 (Calibration): 예측 확률의 정확성

AUC가 높아도 보정이 나쁠 수 있습니다. AUC는 순위(ranking)만 평가하며, 절대적 확률의 정확성은 평가하지 않습니다.

Calibration Plot:
- X축: 예측 확률 (10개 구간으로 binning)
- Y축: 관측 비율 (각 구간에서 실제 이벤트 발생 비율)
- 완벽한 보정: 45도 대각선

해석:
- 대각선 위: 과소추정 (예측 확률 < 실제 비율)
- 대각선 아래: 과대추정 (예측 확률 > 실제 비율)

정량적 메트릭:
Brier Score = (1/n) Σ (p̂ᵢ - yᵢ)²
→ 0에 가까울수록 좋음 (MSE of predicted probabilities)

Q: AUC와 calibration의 차이를 설명 부탁합니다.
A: AUC는 판별력(양성과 음성을 구분하는 능력), calibration은 보정력(예측 확률이 실제 확률과 일치하는 정도)입니다. Propensity Score 추정에서는 판별력보다 보정력이 더 중요합니다. PS의 목적이 매칭을 위한 확률 추정이지 분류가 아니기 때문입니다. PS 모델의 AUC가 너무 높으면(>0.9) 오히려 문제입니다. 처치 그룹과 대조 그룹의 겹침(overlap)이 부족하여 매칭 품질이 저하됩니다.

7. Propensity Score: 로지스틱 회귀의 인과 추론 응용

7.1 Propensity Score의 정의와 핵심 정리

Rosenbaum & Rubin(1983)이 정의한 Propensity Score:

e(X) = P(T = 1 | X)

T: 처치 여부 (binary)
X: 관측된 공변량 벡터 (covariates)
e(X): 공변량 X가 주어졌을 때 처치를 받을 확률

Balancing Property (핵심 정리):

T ⊥ X | e(X)

"Propensity Score가 동일한 관측치들 사이에서,
 처치 배정은 공변량과 독립이다."

이 정리가 의미하는 것: 14개의 공변량으로 매칭하는 것은 조합 폭발 때문에 불가능하지만, 이 14개를 하나의 스칼라 값(propensity score)으로 요약하여 매칭하면, 공변량 균형이 달성됩니다.

7.2 왜 로지스틱 회귀로 PS를 추정하는가

PS 추정에 사용 가능한 모델은 여러 가지입니다. 그러나 로지스틱 회귀가 표준으로 자리잡은 이유가 있습니다:

해석 가능성	✅ 계수 = 공변량 기여도	❌ Black-box	❌ Black-box
보정력	✅ 자연스러운 확률 출력	⚠️ 후보정 필요	⚠️ 후보정 필요
공변량 균형	✅ 검증된 이론적 보장	⚠️ 판별에 최적화, 균형 미보장	⚠️ 동일
소표본 안정성	✅ 안정적	❌ 과적합 위험	❌ 높은 과적합
관행/수용성	✅ 학술 표준	⚠️ 보수적 학계에서 저항	❌ 거의 사용 안 됨

King & Nielsen(2019)은 PS 매칭 자체에 대한 비판을 제기했지만, 그 비판도 로지스틱 회귀 기반 PS를 전제로 합니다.
대안 모델이 더 낫다는 주장이 아니라, 매칭 방법론 자체에 대한 비판입니다.

7.3 PS 추정의 절차

Step 1: 모델 구성
- 종속변수: T (처치 여부, 0/1)
- 독립변수: 처치 결과(outcome)에 영향을 미치는 공변량
- ⚠️ 처치의 결과로 발생한 변수는 제외 (post-treatment variable)

Step 2: 모델 적합
PS(Xᵢ) = σ(β̂₀ + β̂₁X₁ᵢ + ... + β̂ₖXₖᵢ)

Step 3: Common Support 확인
- 처치 그룹과 대조 그룹의 PS 분포가 겹쳐야 함
- 겹치지 않는 영역의 관측치는 매칭 불가 → 제외

Step 4: 매칭 (Nearest Neighbor)
- Caliper: 0.2 × SD(PS)  [Austin, 2011]
- Caliper 밖의 매칭은 거부
- 비복원 매칭(without replacement)이 기본

Step 5: 균형 검증 (Balance Check)
- SMD (Standardized Mean Difference) < 0.1 (필수)
  SMD = |X̄_treated - X̄_control| / √((s²_treated + s²_control) / 2)
- Variance Ratio: [0.5, 2.0]
- 모든 공변량에 대해 확인

Step 6: 처치 효과 추정
- ATT (Average Treatment Effect on the Treated)
  ATT = E[Y₁ - Y₀ | T = 1]
- Abadie-Imbens Standard Error (2016)
  → 매칭의 불확실성을 반영한 표준오차

7.4 Sensitivity Analysis: Rosenbaum Bounds

PSM의 핵심 가정은 무교란 가정(no unmeasured confounders)입니다. 이 가정은 검증 불가능합니다. 관측하지 못한 변수가 있을 수 있기 때문입니다. Rosenbaum Bounds는 "미관측 교란 변수가 있더라도 결과가 유효한가?"를 평가합니다:

Γ (Gamma): 미관측 교란의 강도 파라미터

Γ = 1: 미관측 교란 없음 (PSM 가정 충족)
Γ = 2: 관측되지 않은 변수가 처치 확률을 최대 2배까지 변화시킬 수 있음

해석:
Γ ≤ 2.0에서 결과 유의 → PASS (견고한 결과)
2.0 < Γ ≤ 3.0에서 유의성 상실 → WARN (주의 필요)
Γ > 3.0에서야 유의성 상실 → 매우 견고

기준: Γ ≤ 2.0에서 p < 0.05 유지되면 결과를 신뢰

"PSM에서 인과 관계를 주장할 수 있는 조건은?"

Unconfoundedness (관측된 공변량으로 충분한 통제)
Common Support (PS 분포의 충분한 겹침)
SUTVA (한 단위의 처치가 다른 단위의 결과에 영향 안 줌)
Rosenbaum Bounds에서 결과가 견고 (Γ ≤ 2.0)

8. 정규화(Regularization)와 변형

8.1 L1 / L2 정규화

L2 (Ridge):
ℓ_regularized(β) = ℓ(β) - λ Σ βⱼ²

효과: 계수를 0 방향으로 축소 (shrinkage), 완전한 0은 안 됨
용도: 다중공선성 완화, 과적합 방지

L1 (Lasso):
ℓ_regularized(β) = ℓ(β) - λ Σ |βⱼ|

효과: 일부 계수를 정확히 0으로 만듦 (변수 선택)
용도: 고차원 데이터, sparse 모델

Elastic Net (L1 + L2):
ℓ_regularized(β) = ℓ(β) - λ₁ Σ |βⱼ| - λ₂ Σ βⱼ²

효과: L1의 변수 선택 + L2의 안정성
용도: 상관된 변수가 많은 고차원 데이터

8.2 다항 로지스틱 회귀 (Multinomial)

종속 변수가 3개 이상의 범주인 경우:

P(Y = k | X) = e^(βₖᵀX) / Σ e^(βⱼᵀX)    (softmax function)

기준 범주(reference category) 대비 로그 오즈:
log(P(Y=k)/P(Y=ref)) = βₖᵀX

각 범주별 계수 벡터가 별도로 추정됨

8.3 순서형 로지스틱 회귀 (Ordinal)

종속 변수에 순서가 있는 경우 (예: 낮음 < 보통 < 높음):

Proportional Odds Model:
logit(P(Y ≤ j)) = αⱼ - βᵀX

핵심 가정: 비례 오즈 가정 (parallel regression assumption)
→ β는 모든 cutpoint에서 동일
→ Brant test로 검정

9. 체크리스트

9.1 모델링 전

□ 종속변수가 이진(binary)인가? → 아니면 다항/순서형 고려
□ 이벤트 수 / 변수 수 ≥ 10-20 (EPV 규칙) → 부족하면 변수 축소 또는 Firth
□ 독립변수 간 상관 확인 (VIF) → VIF > 10이면 조치
□ 연속형 변수의 로그 오즈 선형성 확인 → 위반 시 변환
□ 결측치 처리 전략 결정 → 완전 제거(listwise) vs 다중대체(MI)

9.2 모델링 중

□ 수렴 확인 → 미수렴이면 분리(separation) 진단
□ Hosmer-Lemeshow 적합도 검정 → p > 0.05
□ 계수의 방향과 크기가 도메인 지식과 일치하는가
□ 영향력 진단 (influential observations) → Cook's distance, DFBETAs

9.3 모델링 후

□ AUC-ROC 산출 → 목적에 따른 기준 적용
□ Calibration plot 확인 → 45도 대각선과의 괴리
□ 용도별 추가 검증:
  - 분류 목적: Precision/Recall, F1, 최적 threshold
  - PS 추정 목적: SMD < 0.1 (전 공변량), Common Support, Rosenbaum Bounds
□ 교차 검증 (k-fold CV) → 과적합 확인

10. Q&A

로지스틱 회귀와 선형 회귀의 차이?	종속변수 분포(베르누이 vs 정규), 추정법(MLE vs OLS), link function(logit vs identity)
왜 logit 변환인가?	베르누이 분포의 canonical link, 실수 전체로 확장, 오즈비의 자연스러운 해석
계수 β₁ = 0.5의 해석?	다른 공변량 통제 시 X₁이 1단위 증가하면 오즈가 e^0.5 ≈ 1.65배. 확률이 1.65배가 아님에 주의
MLE가 수렴하지 않으면?	Complete/quasi-complete separation 확인 → Firth's penalized likelihood 또는 정규화
AUC 0.95가 항상 좋은가?	분류 목적이면 좋지만, PS 추정에서는 처치/대조 그룹 겹침 부족을 의미 → 매칭 품질 저하
Propensity Score란?	P(T=1\|X) — 공변량이 주어졌을 때 처치를 받을 확률. Balancing property에 의해 다차원 공변량을 1차원으로 요약
PSM에서 인과 관계 조건?	Unconfoundedness + Common Support + SUTVA + Rosenbaum Bounds 견고성
SMD < 0.1의 의미?	매칭 후 처치/대조 그룹 간 공변량 차이가 표준편차의 10% 미만 → 균형 달성
Caliper 0.2×SD(PS)의 근거?	Austin(2011)의 시뮬레이션 연구에서 최적 bias-variance tradeoff를 보인 값
L1 vs L2 정규화 차이?	L1은 변수 선택(sparse), L2는 축소(shrinkage). 기하학적으로 L1은 diamond, L2는 circle 제약

References

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). Wiley.
Agresti, A. (2013). Categorical Data Analysis (3rd ed.). Wiley.
Rosenbaum, P. R., & Rubin, D. B. (1983). The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika, 70(1), 41–55.
Abadie, A., & Imbens, G. W. (2016). Matching on the Estimated Propensity Score. Econometrica, 84(2), 781–807.
Austin, P. C. (2011). Optimal Caliper Widths for Propensity-Score Matching. American Journal of Epidemiology, 173(15), 1404–1413.
King, G., & Nielsen, R. (2019). Why Propensity Scores Should Not Be Used for Matching. Political Analysis, 27(4), 435–454.
Caliendo, M., & Kopeinig, S. (2008). Some Practical Guidance for the Implementation of Propensity Score Matching. Journal of Economic Surveys, 22(1), 31–72.
Firth, D. (1993). Bias Reduction of Maximum Likelihood Estimates. Biometrika, 80(1), 27–38.

'Knowledge Base > Foundations' 카테고리의 다른 글

LLM-as-Judge 루브릭 설계: 정보이론 관점의 해상도 분석과 가이드 (0)	2026.02.09
Swiss Cheese Model for LLM Evaluation: 단일 Grader는 반드시 실패한다 (0)	2026.02.09
In-Context Learning: Transformer는 어떻게 "학습 없이 학습"하는지, 메커니즘, 한계, Agent Memory로의 확 (0)	2026.02.08
Agent Memory Architecture: Retrieval System과 Knowledge Container 선택 가이드 (0)	2026.02.07
LLM 에이전트 평가(Evals) 가이드 (0)	2026.01.31

ABOUT ME