Seeing the Goal, Missing the Truth: Human Accountability for AI Bias

Knowledge Base/Foundations 2026. 2. 20. 22:03

Author: Sean Cao (University of Maryland), Wei Jiang (Emory University), Hui Xu (Lancaster University)
Paper: arXiv:2602.09504v1 (2025)
Reviewer: Claude Code Opus 4.6, mangowhoiscloud

1. 문제 정의 및 연구 동기

1.1 목적 조건부 인지(Purpose-Conditioned Cognition)

본 논문은 LLM 기반 측정(measurement)에서 발생하는 특정 실패 모드를 식별합니다. 저자들은 이를 목적 조건부 인지(Purpose-Conditioned Cognition) 라 명명하며, 다음과 같이 정의합니다: "중간 과제(intermediate task)가 최종 적용 목적에 조건부가 될 때, 명시적 인센티브가 없더라도 중립성이 훼손될 수 있다."

이 개념은 행동과학 문헌에 뿌리를 두고 있습니다. 저자들은 동기화된 추론(motivated reasoning), Tversky & Kahneman (1981)의 프레이밍 효과(framing effects), Mullainathan et al. (2008)의 주의력 제약(attention limitations) 을 인용하며, 인간이 인지된 목적에 따라 명시적 인센티브 없이도 해석을 조정하는 행동이 "제거하기 어렵다"는 점을 강조합니다.

1.2 연구 보조원의 편향

논문은 구체적인 비유로 시작합니다. 채용 인터뷰 전사록을 요약하는 연구 보조원이 해당 요약이 채용 성공률 평가에 사용된다는 것을 알게 되면, "최종 합격한 후보자의 강점과 밝은 면을 강조하고 불확실성을 축소"하는 경향이 나타날 수 있다고 지적합니다. LLM도 동일한 패턴을 보이는지가 본 논문의 핵심 질문입니다.

1.3 연구 질문

저자들이 직접 제기하는 질문은 다음과 같습니다: "목적 조건부 행동이 LLM에서도 발생하는가? 다시 말해, AI를 '보조자(assistant)' 역할로 제한하면 최종 의사결정 과제로부터의 분리가 중립적이고 편향 없는 중간 출력을 보장하는가?"

1.4 기존 문헌 대비 위치 설정

본 논문의 핵심 주장은 기존 AI 편향 연구와의 차별화에 있습니다. 기존 연구들이 학습 데이터 접근(look-ahead bias), 모델 아키텍처의 결함, 또는 아첨(sycophancy) 등 기계 수준의 한계에 편향의 원인을 돌리는 반면, 본 논문은 초점을 "기계 수준의 한계에서 기계의 인간 사용(human use of machine)"으로 이동시킵니다.

저자들은 또한 컴퓨터과학 분야의 인접 개념들 — 보상 해킹(reward hacking), 사양 게이밍(specification gaming), 목적 과잉일반화(objective misgeneralization) — 과의 관계를 인정하면서도, 본 논문의 메커니즘이 이들과 구별됨을 명시합니다. 구체적으로, 본 논문이 식별하는 편향은 학습 단계가 아닌 추론(inference) 단계에서, 모델이나 데이터의 변경 없이 프롬프트의 프레이밍만으로 발생한다는 점에서 차별화됩니다.

1.5 명시적 기여

저자들은 두 가지 기여를 명시합니다:

AI 편향의 원인을 알고리즘적 결함이 아닌 연구 설계상의 인간 책임(human accountability in research design) 에 귀속시킨 것
직접 예측 과제가 아닌 중간 측정(intermediate measurement) 을 사용함으로써, 목적 인식 효과를 여타 배포 단계 편향으로부터 분리한 것

2. 실험 설계

2.1 데이터

항목	상세
표본	S&P 500 기업, 2022년 1월 – 2024년 12월
실적 발표 전사록	Capital IQ
주식 수익률	CRSP
회계 데이터	Compustat

2.2 모델 선택과 지식 컷오프

GPT-4o-mini (경량 증류 변형)를 사용합니다. 이 모델의 학습 데이터 지식 컷오프(knowledge cutoff)는 2023년 10월 1일이며, 이 컷오프가 본 논문의 식별 전략(identification strategy)의 핵심 레버입니다.

컷오프의 역할은 다음과 같습니다:

Pre-cutoff (2022.01 – 2023.09): 모델이 학습 데이터에서 주식 수익률, 실적 결과 등을 기억(memorize)할 수 있는 기간. Goal-Aware 프롬프트가 이 기억을 활성화하여 점수에 내재시킬 가능성이 존재합니다.
Post-cutoff (2023.10 – 2024.12): 모델이 미래 결과에 접근할 수 없는 기간. Goal-Aware의 추가적 예측력이 진정한 정보 추출에 기인한다면, 컷오프 이후에도 지속되어야 합니다.

이러한 구조는 자연실험(natural experiment) 을 형성하며, 프롬프트 효과에 의한 성능과 미래 정보 접근에 의한 성능을 분리합니다.

2.3 프롬프트 설계 (독립 변수)

두 프롬프트를 동일한 실적 발표 전사록에 적용합니다:

Goal-Blind (목적 비공개):

"Please provide a continuous sentiment score in [-1, 1] about the firm's business sentiment for the month ending on {date}."

Goal-Aware (목적 공개):

위 프롬프트와 동일 + "The sentiment score later will be used as an explanatory variable in a regression to predict the monthly stock returns ending on {date}."

실적 예측(earnings prediction) 과제에서는 감성 점수 대신 경쟁 점수(competition score) 를 사용하는 동일 구조의 프롬프트 쌍이 존재하며, downstream 목적으로는 "분기별 주당순이익(EPS) 예측"이 공개됩니다.

2.4 점수 구성

범위: [-1, 1] 연속 스케일
입력: t-1 시점에서 이용 가능한 가장 최근의 실적 발표 전사록
변환: 감성 점수는 연도-월 코호트 내 백분위(percentile)로, 경쟁 점수는 4자리 SIC 산업 times 연도 코호트 내 백분위로 변환하여 기업 간 비교 가능성을 확보합니다.
핵심 변수 Diff: 동일 기업-기간에 대한 Goal-Aware 백분위와 Goal-Blind 백분위의 차이입니다. 이 변수가 목적 공개의 증분적 효과(incremental effect)를 포착합니다.

3. 평가 지표(Evaluation Metrics) — 상세 분석

본 논문의 방법론적 핵심입니다. 세 가지 평가 계층(tier)을 적용하며, 각 계층은 계량경제학적 엄밀성이 점진적으로 증가합니다.

3.1 포트폴리오 정렬 (Tier 1: 비모수적 검증)

방법론

감성 점수 기준 월별 5분위(quintile) 정렬
Goal-Aware와 Goal-Blind 점수에 대해 별도 5분위 구성
동일 가중(equal-weighted) 방식
최상위 5분위(Long) - 최하위 5분위(Short) = 무비용 롱숏(zero-investment long-short) 포트폴리오
Pre-cutoff / Post-cutoff 기간 별도 분석

Table 1 결과: 5분위별 수익률 상세

Pre-cutoff 기간:

	Goal-Aware	Goal-Blind
High (Q5)	0.661%	0.095%
Low (Q1)	-0.891%	-0.974%
High-Low 스프레드	1.552%/월* (p<0.001)	1.069%/월 (p<0.01)
차이	0.483 pp (p<0.05)

Post-cutoff 기간:

	Goal-Aware	Goal-Blind
High (Q5)	2.788%	2.848%
Low (Q1)	0.518%	0.609%
High-Low 스프레드	2.269%/월 (p<0.01)	2.239%/월* (p<0.001)
차이	0.030 pp (비유의)

Goal-Aware의 우위가 컷오프 이후 완전히 소멸합니다. 반면 Goal-Blind 점수는 양 기간 모두에서 안정적인 예측력을 유지합니다. 이것이 본 논문의 가장 깨끗한(cleanest) 결과입니다.

주목할 점은 Post-cutoff에서 Goal-Blind의 High 포트폴리오 수익률(2.848%)이 Goal-Aware(2.788%)를 오히려 상회한다는 것입니다. 목적 공개가 단순히 노이즈를 추가하는 것이 아니라, 5분위 구성 자체를 왜곡시켜 최상위 기업의 선별을 약화시킬 수 있음을 시사합니다.

Figure 1 해석

누적 롱숏 포트폴리오 수익률을 보여줍니다. Pre-cutoff 기간에는 Goal-Aware 전략의 누적 수익이 Goal-Blind를 상회하며 상방 이격(diverge upward)합니다. 컷오프 시점에서 정규화(normalization)한 이후에는 양 전략이 거의 동일한 궤적을 보이며, 최소한의 성과 차이만 나타납니다. 이는 Goal-Aware의 우위가 우수한 정보 추출이 아닌 과적합(overfitting) 을 반영한다는 해석을 뒷받침합니다.

방법론적 특성

포트폴리오 정렬은 비모수적(non-parametric) 이므로 선형성 가정을 부과하지 않습니다. 모수적 분석 이전의 모델프리(model-free) 건전성 검증(sanity check) 으로 기능합니다. 동일 가중 방식은 대형주 편향을 회피하지만, S&P 500 내 상대적 소형주의 노이즈가 유입될 수 있습니다.

3.2 Fama-MacBeth 회귀분석 (Tier 2: 모수적 횡단면 분석)

회귀 사양 (Equation 1)

변수 정의:

Score: Goal-Blind 백분위 (기저 신호)
Diff: Goal-Aware 백분위 $-$ Goal-Blind 백분위 (목적 공개의 증분적 효과)
PreCutoff / PostCutoff: 지식 컷오프 기준 기간 더미
alpha_t: 시간 고정효과 — 시장 전체의 수익률 변동을 흡수합니다

분해 전략의 의의

Score와 Diff로의 분해(decomposition)는 Goal-Aware 원점수를 직접 비교하는 것보다 방법론적으로 우월합니다. Goal-Aware 점수를 통째로 사용할 경우, 기저 텍스트 정보와 목적 공개에 의한 증분적 효과가 혼재(confound)되기 때문입니다. 본 사양은 이 둘을 명시적으로 분리하며, 각각에 대해 컷오프 전후의 안정성을 독립적으로 검정할 수 있게 합니다.

Table 2 결과: 주식 수익률 예측 회귀

사양 1 (통제 변수: 주식 베타):

계수	추정값	표준오차	유의성
Goal-Blind Score × Pre-Cutoff	1.279	(0.394)	***
Goal-Blind Score × Post-Cutoff	1.273	(0.505)	**
Diff × Pre-Cutoff	0.682	(0.299)	**
Diff × Post-Cutoff	-0.000	(0.138)	n.s.

계수 동질성 검정: Goal-Blind p=0.993 (기각 안 됨); Diff p=0.046 (5% 수준 기각)

사양 2 (통제 변수: 주식 베타, 기업 규모, 장부가-시가 비율):

계수	추정값	표준오차	유의성
Goal-Blind Score × Pre-Cutoff	1.281	(0.387)	***
Goal-Blind Score × Post-Cutoff	1.283	(0.474)	**
Diff × Pre-Cutoff	0.724	(0.307)	**
Diff × Post-Cutoff	0.040	(0.127)	n.s.

계수 동질성 검정: Goal-Blind p=0.996 (기각 안 됨); Diff p=0.048 (5% 수준 기각)

이로 인해 세 가지 사실이 두드러집니다:

Goal-Blind Score 계수의 현저한 안정성: 컷오프 전후로 1.279 → 1.273 (사양 1), 1.281 → 1.283 (사양 2)입니다. 동질성 검정의 p-value가 0.993, 0.996으로, 실질적으로 동일한 계수입니다. 이는 기저 LLM 신호가 텍스트에서 진정한(genuine) 시간 불변적 정보를 포착하고 있음을 의미합니다.
Diff 계수의 급격한 붕괴: Pre-cutoff 0.682 - 0.724에서 Post-cutoff 0.000 - 0.040으로 붕괴합니다. 동질성 검정이 5% 수준에서 기각되며, 이는 목적 공개의 증분적 효과가 컷오프 경계에서 구조적 단절(structural break) 을 겪음을 통계적으로 확인합니다.
통제 변수 추가에 대한 견고성: 사양 1에서 2로 통제 변수를 추가해도 핵심 패턴이 변하지 않습니다. 이는 결과가 기업 특성(size, value, beta)에 의해 설명되지 않음을 보여줍니다.

Fama-MacBeth 접근법의 특성

월별 횡단면 회귀를 실행한 후, 계수의 시계열 분포를 통해 추론합니다. 횡단면 상관(cross-sectional correlation) 을 자연스럽게 처리하는 자산 가격 결정 연구의 표준 방법론입니다. 보고된 표준오차가 시계열 평균의 표준오차(Fama-MacBeth standard errors)이므로, 기업 간 잔차 상관에 대해 견고합니다.

3.3 Out of Sample R² (Tier 3: 예측 성능 검증)

OOS R² 산출 방법론

확장 윈도우(expanding window) 재귀적 예측:

예측 시점 T에서, T-1까지의 모든 데이터를 사용하여 회귀식을 추정하고, 기업 i의 T 시점 수익률(또는 실적)을 예측합니다.

OOS R²는 다음과 같이 정의됩니다:

y_i,T: T-1 시점까지의 데이터로 추정한 회귀식에 의한 예측값
y_T-1: T-1 시점까지의 역사적 횡단면 평균 (벤치마크)
주식 수익률: 월별 예측 / 실적: 분기별 예측

벤치마크 모델은 역사적 평균(historical mean)으로, 가장 보수적인 기준선입니다. R^2_{OOS} > 0이면 모델이 단순 평균보다 우수한 예측력을 보유함을 의미합니다.

패널 회귀 (Equation 4)

기업-시점 수준의 OOS R²를 종속 변수로 사용하는 패널 회귀입니다:

mu_i: 기업 고정효과
nu_T: 시간 고정효과
theta_1: 핵심 관심 계수 — Goal-Aware의 예측 우위가 컷오프 이후에도 지속되는지 직접 검정합니다
theta_2: Goal-Aware의 전체 기간 평균 효과
theta_3: Post-cutoff 기간의 전체적 성능 변화

Table 3 결과: 주식 수익률 OOS R²

사양	θ₁ (Goal-Aware × Post-Cutoff)	표준오차	유의성
기업 고정효과 미포함	-0.058	(0.008)	***
기업 고정효과 포함	-0.059	(0.008)	***

Figure 2 해석

월별 OOS R² 시계열을 보여줍니다. Pre-cutoff 기간에는 Goal-Aware 감성 점수가 Goal-Blind를 상회합니다. 컷오프 이후 성과가 급격히 반전되며, Goal-Aware의 예측 정확도가 Goal-Blind 벤치마크 아래로 하락합니다. 이는 Goal-Aware의 in-sample 우위가 평가 기간 패턴에 대한 과적합이었음을 시각적으로 확인합니다.

3.4 실적 예측(Earnings Prediction)으로의 확장

주식 수익률과 독립적인 두 번째 예측 과제에서 동일 패턴을 복제하여 외적 타당성을 강화합니다.

Table 4 결과: Fama-MacBeth 회귀 (EPS 예측)

사양 1 (통제 변수: EPS, 손실 지시 변수):

계수	추정값	표준오차	유의성
Goal-Blind Score × Pre-Cutoff	-0.457	(0.130)	***
Goal-Blind Score × Post-Cutoff	-0.117	(0.073)	n.s.
Diff × Pre-Cutoff	-0.188	(0.081)	**
Diff × Post-Cutoff	0.056	(0.091)	n.s.

계수 동질성 검정: Goal-Blind p=0.083; Diff p=0.055

사양 2 (통제 변수: So (2013) 전체 예측변수):

계수	추정값	표준오차	유의성
Goal-Blind Score × Pre-Cutoff	-0.367	(0.119)	**
Goal-Blind Score × Post-Cutoff	-0.112	(0.054)	*
Diff × Pre-Cutoff	-0.178	(0.072)	**
Diff × Post-Cutoff	0.044	(0.073)	n.s.

계수 동질성 검정: Goal-Blind p=0.132; Diff p=0.039 (5% 수준 기각)

해석: 경쟁 압력(competition)은 실적을 부정적으로 예측합니다 (계수가 음수). 이는 경제학적으로 직관적입니다 — 경쟁이 심할수록 마진이 압축되고 EPS가 하락합니다. Goal-Aware의 증분적 효과(Diff)는 pre-cutoff에서 유의하나 (-0.188, -0.178), post-cutoff에서 완전히 붕괴합니다 (0.056, 0.044, 비유의). 주식 수익률 분석과 동일한 패턴입니다.

주목할 점으로, 실적 예측에서는 Goal-Blind Score 자체도 컷오프 전후로 약화됩니다 (-0.457 → -0.117). 이는 경쟁 강도가 실적에 미치는 영향이 시간에 따라 변할 수 있음을 시사하며, 감성 점수의 수익률 예측에서 보인 완벽한 안정성(1.279 → 1.273)과 대조됩니다.

Table 5 결과: 실적 OOS R²

사양	θ₁ (Goal-Aware × Post-Cutoff)	표준오차	유의성
기업 고정효과 미포함	-5.370	(1.177)	***
기업 고정효과 포함	-5.370	(1.177)	***

실적 예측에서의 -5.370이라는 교호작용 계수의 크기는 주식 수익률(-0.059)보다 두 자릿수 이상 큽니다. 이는 Goal-Aware 경쟁 점수가 미래 데이터에 접근할 수 없을 때 예측을 적극적으로 악화시킴을 의미합니다. 단순히 예측력이 소멸하는 수준이 아니라, 역사적 평균 대비 체계적으로 나쁜 예측을 생성합니다.

Figure 3 해석

분기별 OOS R² 시계열을 보여줍니다. 양 방법 모두 post-cutoff에서 약화되지만, Goal-Aware 점수가 현저하게 더 급격한 성능 악화를 보입니다. 이는 과제 인식(task-awareness) 성분이 학습 과정에서 내재화된 전방 관측 정보(forward-looking information)에 의존하고 있음을 확인합니다.

4. 핵심 지표 요약 테이블

지표	목적	Pre-Cutoff 결과	Post-Cutoff 결과
Portfolio High-Low Spread	비모수적 수익률 예측력	Goal-Aware +0.483%/월 우위 (p<0.05)	차이 0.030%/월 (비유의)
Fama-MacBeth β(Diff) — 수익률	목적 공개의 증분적 신호	0.724** (SE: 0.307)	0.040 (SE: 0.127), 비유의
Fama-MacBeth β(Score) — 수익률	기저 신호 견고성	1.281*** (SE: 0.387)	1.283** (SE: 0.474)
OOS R² 교호작용 — 수익률	예측 우위 지속성	—	θ₁ = -0.059*** (SE: 0.008)
Fama-MacBeth β(Diff) — 실적	목적 공개의 증분적 신호	-0.178** (SE: 0.072)	0.044 (SE: 0.073), 비유의
OOS R² 교호작용 — 실적	예측 우위 지속성	—	θ₁ = -5.370*** (SE: 1.177)

세 가지 평가 계층 모두에서 결과가 내적 일관성(internal consistency) 을 유지합니다: Goal-Aware 프롬프팅은 기억 매개 오염을 통해 인샘플 성능을 팽창시키며, Goal-Blind 점수는 시간적으로 안정적인 진정한 예측 내용을 보유합니다.

5. 메커니즘과 이론적 기여

5.1 선행 연구와의 구별

본 논문의 식별 대상은 기존의 AI 편향 원인들과 명확히 구별됩니다:

기존 편향 원인	메커니즘	본 논문과의 차이
Look-ahead bias / 기억 (Lopez-Lira et al., 2025; Glasserman & Lin, 2023)	모델이 학습 데이터에서 미래 데이터에 접근	양 프롬프트가 동일한 모델을 사용 — 공개(disclosure)만 다름
아첨(Sycophancy) (Sharma et al., 2023)	모델이 사용자 선호에 맞춰 출력 조정	직접적 피드백 루프 부재 — 프레이밍만으로 오염 발생
데이터 오염	학습/평가 데이터 중복	양 프롬프트가 동일한 전사록 처리
보상 해킹 / 사양 게이밍	학습 중 목적 함수 악용	본 논문은 추론 단계에서 프롬프트를 통해 발생

5.2 식별 전략의 논리

모델, 데이터, 과제를 모두 고정한 상태에서 downstream use의 공개 여부만을 변형합니다. 지식 컷오프가 위조 검증(falsification test) 을 제공합니다:

"Goal-Aware의 우위가 진정한 신호를 포착하는 것이라면, 컷오프 이후에도 지속되어야 한다. 지속되지 않는다면, 그 우위는 학습 데이터에서의 기억에 의해 매개된 것이다."

이 논리 구조는 단순하지만 강력합니다.

5.3 조직 행동론적 유추

저자들은 직접적인 비유를 제시합니다: "직원이 산출물이 어떻게 평가될지 알게 되면, 과업의 본질적 품질(intrinsic task quality)이 아닌 예상되는 성과 기준(anticipated performance criterion)에 대해 합리적으로 최적화할 수 있다." LLM이 동일한 행동 패턴을 보입니다 — downstream 목적을 알려주면 명시적 인센티브 없이도, 인지된 평가 기준에 대한 암묵적 최적화가 발생합니다.

5.4 아첨(Sycophancy)과의 개념적 연결

저자들은 본 논문의 현상과 AI 아첨 사이의 개념적 유사성을 인정합니다. 양 현상 모두 모델이 과제 불변적 정확성(task-invariant correctness)이 아닌, 바람직한 응답에 대한 맥락적 단서(contextual cues about desirable responses) 에 반응하여 출력을 조정하는 것입니다. 차이점은, 아첨이 사용자의 명시적 선호에 대한 반응인 반면, 목적 조건부 인지는 프롬프트의 프레이밍에 내재된 암묵적 인센티브 신호(implicit incentive signals) 에 대한 민감성이라는 점입니다.

6. 비판적 평가

6.1 강점

식별 설계의 정교함: 지식 컷오프를 자연실험으로 활용한 것은 깔끔합니다. 기억 매개 신호와 진정한 텍스트 정보를 분리하는 날카로운 경계를 제공합니다.
삼중 평가 체계: 포트폴리오 정렬(비모수적) → Fama-MacBeth(모수적 횡단면) → OOS R²(예측 성능)는 계량경제학적 엄밀성이 점진적으로 증가하며, 세 계층 모두에서 일관된 결과를 보입니다.
이중 과제 검증(dual-task validation): 주식 수익률(감성 점수)과 실적 예측(경쟁 점수)에서 서로 다른 점수 유형, 서로 다른 예측 빈도(월별 vs. 분기별), 서로 다른 통제 변수 세트를 사용하여 결과를 복제함으로써 외적 타당성을 강화합니다.
Diff 분해의 방법론적 우월성: Goal-Blind 기저 신호와 Goal-Aware 증분 효과를 분리하는 것은, Goal-Aware 원점수를 직접 비교하는 것보다 인과적 해석을 명확하게 합니다.
다중 사양에 대한 견고성: 주식 수익률 회귀에서 통제 변수 추가(사양 1 → 2)에도 핵심 패턴이 변하지 않으며, OOS R² 패널 회귀에서 기업 고정효과 포함/미포함 모두 동일한 결과를 보입니다.

6.2 약점 및 미해결 문제

단일 모델 (GPT-4o-mini): 단 하나의 모델만 테스트합니다. 목적 조건부 인지의 정도는 아키텍처, 모델 크기, 학습 절차(RLHF 강도 등)에 따라 다를 가능성이 높습니다. Claude, Llama, 또는 GPT-4o 전체 모델에서의 결과가 있어야 주장의 일반성이 강화됩니다. 특히, 더 큰 모델이 더 정교한 목적 조건부 행동을 보이는지, 아니면 더 견고한 과제 불변성을 보이는지는 경험적으로 열린 질문입니다.
프롬프트 민감도 및 소거 분석(ablation) 부재: Goal-Aware 프롬프트는 단 한 문장을 추가합니다. 그러나 중간 수준의 공개 — 예컨대 "This will be used for financial analysis" (구체적 예측 대상 비명시), "This will be used in academic research" (금융 맥락 비명시) — 에 대한 소거 분석이 제공되지 않습니다. 양성적(benign) 맥락 설정과 오염적 공개 사이의 경계가 탐구되지 않았습니다.
백분위 변환에 의한 정보 손실: 원점수를 코호트 내 백분위로 변환하면, 점수 이동의 절대적 크기와 분포 형태에 관한 정보가 소실됩니다. Goal-Aware 프롬프팅이 점수 분포를 체계적으로 압축하거나 확장할 경우, 백분위 순위는 이를 은폐합니다. 원점수 수준에서의 분포 비교(Kolmogorov-Smirnov 검정 등)가 보완적 증거를 제공할 것입니다.
지식 컷오프의 정밀도: GPT-4o-mini의 2023년 10월 1일 컷오프는 주장되지만 독립적으로 검증되지 않습니다. 웹 스크래핑 기반 코퍼스에서는 학습 데이터 경계가 흐릿한 것이 일반적이며, 특정 기업의 실적 정보가 컷오프 직후에도 학습 데이터에 부분적으로 포함되었을 가능성을 배제할 수 없습니다.
인과적 메커니즘의 불충분한 특정: 논문은 목적 공개가 점수를 오염시킨다는 행동적 사실(behavioral fact) 은 확립하지만, 모델이 어떻게 정보를 재가중하는지에 대한 메커니즘적 증거는 제공하지 않습니다. 어텐션 패턴 분석(attention pattern analysis), 로짓 렌즈 프로빙(logit lens probing), 또는 활성화 패칭(activation patching)이 블랙박스 행동 관찰을 넘어서는 내부 메커니즘적 이해를 제공할 것입니다.
S&P 500 편향: 표본이 애널리스트 커버리지가 풍부한 대형주로 제한됩니다. 이들은 LLM 학습 데이터에 가장 많이 표현된 기업이므로, 기억 매개 효과가 과대 추정되었을 가능성이 있습니다. 소형주, 해외 주식, 또는 비상장 기업(모델의 사전 노출이 적은 대상)에 대한 일반화 가능성은 불확실합니다.

7. 함의

논문의 권고사항은 명확하며 결과에 의해 잘 뒷받침됩니다:

LLM을 통해 구성하는 중간 측정값은 목적 비공개(goal-blind) 프롬프트에서 생성하고, 엄격한 아웃오브샘플 평가로 검증해야 합니다.

Downstream use를 공개하는 모든 프롬프트는 잠재적으로 오염적이며, 우수한 인샘플 성능은 검증이 아닌 경고 신호(red flag) 로 취급해야 합니다.

적용 가능 분야:

퀀트 금융: LLM 기반 피처 엔지니어링에서 프롬프트 설계 시 downstream 과제 정보를 배제해야 합니다.
NLP 파이프라인: 중간 점수가 downstream 예측 과제에 투입되는 모든 시스템에서, 점수 생성 단계와 예측 단계의 정보 격벽(information barrier)이 필요합니다.
사회과학 연구: LLM 생성 지표의 타당성을 평가할 때, 프롬프트에 연구 가설이나 기대 결과가 암시되지 않았는지 점검해야 합니다.

범위의 확장: 암묵적 목적 인식

저자들은 결론부에서 중요한 확장을 제시합니다. 목적 인식이 명시적 지시를 필요로 하지 않을 수 있다는 점입니다. "맥락적 단서(contextual cues), 프롬프트 이력(prompt history), 또는 반복적 상호작용 패턴(repeated interaction patterns)" 을 통해서도 모델이 downstream 목적을 추론할 수 있으며, 이는 본 논문의 최소주의적(minimalist) 실험 설계가 포착하는 것보다 더 광범위한 문제임을 시사합니다.

이 관찰은 유의미한 함의를 가집니다. 명시적으로 목적을 공개하지 않더라도, 프롬프트의 맥락이나 이전 대화 이력에서 모델이 의도를 추론할 수 있다면, 목적 비공개 프롬프트만으로는 완전한 중립성을 보장할 수 없기 때문입니다.

8. 결론

본 논문은 LLM 기반 측정에서 간과되어 온 편향 원천을 식별합니다. 그 기여는 주로 방법론적입니다 — 모델이나 데이터가 아닌 프롬프트 설계에서 발생하는 편향을 분리하는 식별 전략을 제시하고, 이것이 인샘플 과적합을 야기함을 삼중 평가 체계로 실증합니다.

저자들의 핵심 결론을 인용하면: "downstream 목적을 공개하면 모델 출력이 체계적으로 재형성되며," 이는 알고리즘적 결함이 아니라 "프롬프트 설계에 내재된 인간 유발 왜곡(human-induced distortion)"입니다.

"목적을 보면 진실을 놓친다(Seeing the Goal, Missing the Truth)"는 제목이 핵심 메시지를 정확히 포착합니다: LLM에게 무엇을 찾아야 하는지 알려주면, 모델은 찾는 것처럼 보이는 것을 만들어냅니다.

'Knowledge Base > Foundations' 카테고리의 다른 글

Gradient Boosting Machine: 약한 학습기를 순차적으로 쌓아 강한 학습기를 만드는 원리 (0)	2026.02.23
Sigmoid: 실수를 확률로 변환하는 가장 자연스러운 함수 (0)	2026.02.23
LLM-as-Judge 루브릭 설계: 정보이론 관점의 해상도 분석과 가이드 (0)	2026.02.09
Swiss Cheese Model for LLM Evaluation: 단일 Grader는 반드시 실패한다 (0)	2026.02.09
Logistic Regression: 확률을 모델링하는 해석 가능한 방법 (0)	2026.02.08

ABOUT ME