ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • In-Context Learning: Transformer는 어떻게 "학습 없이 학습"하는지, 메커니즘, 한계, Agent Memory로의 확
    Knowledge Base/Foundations 2026. 2. 8. 13:23
    Author: Claude Opus 4.6, mangowhoiscloud
    Purpose: In-Context Learning 메커니즘·한계·Agent Memory 연결 분석 Knowledge Base
    Date: 2026-02-08

    Executive Summary

    In-Context Learning(ICL)은 LLM이 프롬프트에 포함된 소수의 예시만으로 새로운 태스크에 적응하는 능력입니다. 파라미터 업데이트 없이 발생하는 이 현상은 GPT-3(Brown et al., 2020) 이후 LLM 활용의 핵심 패러다임이 되었으나, 왜 작동하는지에 대한 이해는 여전히 발전 중입니다. 본 문서는 ICL의 3가지 주요 메커니즘 가설(Induction Heads, Implicit Gradient Descent, Bayesian Inference)을 정리하고, In-Weights Learning(IWL)과의 tradeoff를 분석합니다. 특히 "예시가 많을수록 좋다"는 many-shot ICL의 이점과 "context가 길수록 나쁘다"는 Context Rot의 손실이 만드는 구조적 역설을 규명하며, 이 역설이 Agent Memory 설계의 근본 동기가 되는 과정을 추적합니다. 나아가 Test-Time Training(TTT)이라는 최신 연구가 ICL과 IWL 사이의 경계를 어떻게 재정의하고 있는지 살펴봅니다.


    1. 정의: In-Context Learning이란

    In-Context Learning(ICL)은 LLM이 프롬프트 내 예시(demonstration)로부터 입출력 패턴을 추론하여 새로운 query에 적용하는 능력입니다. 모델의 가중치(weight)는 변경되지 않습니다.

    [Prompt]
    영어: Hello → 한국어: 안녕하세요
    영어: Thank you → 한국어: 감사합니다
    영어: Good morning → 한국어: ?
    
    [Model Output]
    좋은 아침이에요

     
    이 예시에서 모델은 번역 태스크를 명시적으로 지시받지 않았지만, 2개의 예시로부터 입출력 매핑 규칙을 추론합니다. Brown et al.(2020)이 GPT-3 논문에서 이 현상을 체계적으로 보고한 이후, ICL은 few-shot prompting의 이론적 기반으로 자리잡았습니다.
    형식적 정의: 학습자(LLM)가 프롬프트 내 예시 집합(분포 P에서 추출)을 관찰하고, 동일 분포의 새로운 입력(분포 Q)에 대해 런타임에 행동을 조정하는 과정입니다. 가중치 업데이트가 수반되지 않으므로 전통적인 학습(training)과 구분되지만, 입력을 관찰하여 행동을 변경한다는 점에서 학습의 형식적 정의를 충족합니다(Microsoft/York, 2025).


    2. 메커니즘: ICL은 왜 작동하는가

    ICL의 내부 메커니즘에 대해서는 여러 가설이 경쟁하고 있습니다. 현재까지의 연구를 종합하면 3가지 주요 관점으로 정리됩니다.

    2.1 Induction Heads 가설

    Olsson et al.(2022, Anthropic)이 제안한 이 가설은 ICL의 회로 수준(circuit-level) 메커니즘을 제시합니다.

    Induction Head는 서로 다른 레이어에 위치한 2개의 attention head가 협력하여 패턴을 완성하는 회로입니다. 시퀀스 […, A, B, …, A]가 주어지면, 이전에 A 다음에 B가 등장했으므로 현재 A 다음에도 B를 예측합니다.

     
    작동 과정은 다음과 같습니다:

    1. 1단계 (Previous Token Head): 이전 레이어의 attention head가 각 위치에 "직전 토큰"의 정보를 복사합니다
    2. 2단계 (Induction Head): 현재 레이어의 attention head가 이 정보를 활용하여 현재 토큰(A)이 이전에 등장한 위치를 찾고, 그 다음 토큰(B)을 출력합니다

    핵심 발견: Induction head의 출현은 훈련 과정에서 갑작스럽게(abruptly) 발생합니다. 이 시점과 ICL 능력의 급격한 향상이 정확히 일치하며, 이는 induction head가 ICL의 주요 메커니즘 중 하나임을 시사합니다(Olsson et al., 2022).
    후속 연구(Muşat, 2025; Chen et al., 2024; Wang et al., 2024)는 이 형성이 층별로 단계적으로 진행됨을 보여주었으며, "Induction Heads as an Essential Mechanism for Pattern Matching"(NAACL 2025 Findings)은 실제 LLM(Llama-3-8B 등)에서 prefix matching score를 통해 induction head의 존재를 실증적으로 확인하였습니다.


    2.2 Implicit Gradient Descent 가설

    Von Oswald et al.(2023, ICML 2023)의 연구는 ICL을 모델 내부에서 발생하는 암묵적 경사하강법으로 해석합니다.
    핵심 주장: Transformer의 self-attention layer가 수행하는 연산이, 프롬프트 내 예시를 training data로 삼아 gradient descent를 한 스텝 실행하는 것과 수학적으로 동등합니다.
    구체적으로, single-layer linear attention의 출력은 다음과 동치입니다:

    output ≈ W_pretrained · x_query - η · ∇L(demonstrations)

    여기서 η는 학습률, ∇L은 프롬프트 내 예시에 대한 손실함수의 기울기입니다. 즉, attention 연산 자체가 meta-optimizer 역할을 수행합니다.

    Ahn et al.(2023, NeurIPS 2023)은 이를 확장하여 linear attention이 preconditioned gradient descent(PGD)를 구현함을 증명하였습니다. 표준 gradient descent에 preconditioning matrix W를 적용하여 수렴 속도를 개선하는 형태입니다.
    후속 연구인 "Learning without training"(2025.07)은 이 관점을 더 발전시켜, ICL 과정에서 발생하는 implicit weight update의 명시적 공식을 도출하였습니다. 토큰이 처리될수록 이 implicit gradient update가 점진적으로 감소하며 수렴하는 양상은, 실제 gradient descent의 학습 역학과 일치합니다.


    2.3 Bayesian Inference 가설

    Xie et al.(2022)은 ICL을 latent concept에 대한 Bayesian inference로 해석합니다.
    핵심 주장: 사전학습 데이터가 다양한 "concept"(태스크 유형)으로 생성되었다고 가정할 때, ICL은 프롬프트 내 예시로부터 현재 concept의 사후확률(posterior)을 추론하는 과정입니다.

    P(concept | demonstrations) ∝ P(demonstrations | concept) · P(concept)

    Chan et al.(2022)은 이 해석을 뒷받침하며, ICL 능력의 출현이 자연어의 특정 분포 특성 — Zipfian distribution, burstiness, within-class variance — 에 의해 조절됨을 실증적으로 보여주었습니다. 사전학습 데이터가 이러한 특성을 가질 때 모델이 더 강한 ICL 능력을 획득합니다.


    2.4 세 가설의 관계

    세 가설은 상호 배타적이지 않으며, 서로 다른 추상화 수준에서의 설명으로 볼 수 있습니다:

    회로 수준 (Circuit)Induction Headsattention head 쌍이 패턴 매칭 회로를 형성
    알고리즘 수준 (Algorithm)Implicit GDattention 연산이 gradient descent step을 구현
    통계 수준 (Statistical)Bayesian Inference예시로부터 latent concept의 사후확률을 추론

    "The Mystery of In-Context Learning"(EMNLP 2024)은 이 세 관점을 종합적으로 정리하며, 각각이 ICL의 서로 다른 측면을 포착하고 있다고 결론짓습니다.


    3. ICL의 특성과 한계

    3.1 실증적 특성

    Microsoft와 University of York의 공동 연구(2025)는 1.8M개 이상의 예측을 통해 ICL의 실증적 특성을 밝혔습니다:
    1) 예시 수에 따른 성능 향상은 지속적입니다. 통상적인 "few-shot(25개)" 서사와 달리, 성능은 50, 100개 예시까지 꾸준히 향상됩니다. 예시가 충분히 많아지면 모델 간, 프롬프팅 기법 간 성능 격차가 줄어들며, 이는 기저의 학습 메커니즘이 특정 모델이나 프롬프트보다 중요해짐을 시사합니다.
    2) Chain-of-Thought(CoT)는 양날의 검입니다. CoT는 최고 성능을 내는 전략이지만 동시에 가장 취약합니다. Out-of-distribution(OOD) 데이터에 대해 가장 민감하게 반응하며, 이는 CoT가 예시의 통계적 패턴에 과적합하게 만드는 경향이 있음을 의미합니다.
    3) 의미보다 통계적 구조에 의존합니다. "Word Salad"(무의미한 단어 조합) 프롬프트가 결국 명확한 자연어 지시문과 비슷한 성능에 도달합니다. 이는 LLM이 프롬프트의 의미(semantics)보다 통계적 구조(statistical structure)에 더 의존함을 나타냅니다.
    결론: ICL은 형식적으로 학습(learning)이지만, 프롬프트 내 표면적 통계 특징에 과도하게 의존하는 ad hoc 학습입니다. 깊은 추상적 이해가 필요한 태스크에서는 일반화가 불안정합니다.


    3.2 ICL vs In-Weights Learning (IWL) Tradeoff

    Anand et al.(2025)의 "Dual Process Learning" 연구는 ICL과 IWL 사이의 경쟁적 관계를 밝혔습니다.
    IWL(In-Weights Learning): 반복 관찰을 통해 모델 파라미터에 정보가 인코딩되는 학습. 사전학습/파인튜닝을 통해 형성됩니다.
    핵심 발견:

    ICL의 일시성(transience)모델은 훈련 초기에 ICL 능력을 획득하지만, 훈련이 계속되면 이 능력을 상실합니다
    IWL로의 전환embedding에 정보가 점진적으로 기억되면서, context 기반 추론의 이점이 사라지고 IWL 전략으로 이동합니다
    충돌 시 IWL 우선ICL과 IWL이 상충할 때(예: context는 "noun"이지만 embedding은 "adjective"로 기억), 모델은 점차 IWL을 우선합니다

     
    이 tradeoff는 Agent Memory 설계에 직접적 함의를 갖습니다. LLM의 context window에 예시를 넣는 것(ICL)과 파인튜닝으로 지식을 내재화하는 것(IWL)은 상보적이지만, 모델이 훈련됨에 따라 ICL 의존도가 자연스럽게 감소합니다. 이는 external memory 시스템의 필요성을 구조적으로 뒷받침합니다.


    3.3 ICL의 구조적 한계

    ICL이 Agent 시스템의 유일한 메모리 메커니즘이 될 수 없는 이유는 다음과 같습니다:

    Context Window 제약예시 수가 많을수록 성능이 향상되지만, context window는 유한합니다. 100-shot이 최적이라 해도 이를 매번 포함하는 것은 토큰 비용과 latency를 급격히 증가시킵니다
    세션 간 지속성 부재ICL은 현재 프롬프트 내에서만 유효합니다. 대화가 끝나면 "학습"은 사라지며, 다음 세션에서 동일한 예시를 다시 제공해야 합니다
    통계적 취약성Microsoft 연구가 보여주듯 ICL은 표면적 통계 패턴에 과적합하므로, OOD 상황에서 일반화가 불안정합니다
    비용 선형 증가예시를 포함할수록 입력 토큰이 선형으로 증가하며, 이에 따른 비용과 latency도 선형으로 증가합니다

     
    이 한계를 가장 극적으로 드러내는 현상이 Context Rot입니다.
     


    3.4 Context Rot: Many-Shot ICL의 구조적 천장

    Section 3.1에서 "예시가 많을수록 성능이 향상된다"는 실증 결과를 확인했습니다. 그러나 이 결론에는 치명적인 조건이 숨어 있습니다: context가 길어질수록 LLM의 성능이 저하됩니다. 이 현상을 Context Rot이라 합니다.
    Many-shot ICL의 이점과 context rot의 손실이 교차하는 지점이 존재하며, 이 교차점이 ICL의 실질적 성능 천장을 결정합니다.

    3.4.1 Lost in the Middle (Liu et al., 2024)

    Liu et al.(2024, TACL)은 context rot의 첫 번째 체계적 증거를 제시했습니다. Multi-document QA와 key-value retrieval 태스크에서, 관련 정보의 위치에 따라 성능이 극적으로 달라집니다:

    • 시작부(primacy)와 끝부(recency)에 위치한 정보: 높은 검색 성능
    • 중간부에 위치한 정보: 유의미한 성능 저하 — long-context 전용 모델에서도 동일

    이 U자형 편향(U-shaped bias)은 ICL에 직접적 함의를 갖습니다. Few-shot 예시가 프롬프트 중간에 위치하면 모델이 이를 효과적으로 활용하지 못할 수 있으며, 예시 수를 늘릴수록 일부 예시가 "중간부"로 밀려나 사실상 사장됩니다.

    3.4.2 Context Length Alone Hurts (Du et al., 2025)

    Du et al.(2025, EMNLP Findings)은 보다 근본적인 발견을 보고합니다: 입력 길이 자체가 성능을 저하시키며, 이는 retrieval 실패와 무관합니다.
    5개 open/closed-source LLM에 대해 math, QA, coding 태스크를 수행한 결과:

    관련 정보를 100% 정확히 검색(perfect retrieval)13.9%~85% 성능 하락 (context 길이 증가 시)
    무관한 토큰을 공백으로 대체 (distraction 제거)여전히 성능 하락
    무관한 토큰을 mask하여 attention 차단여전히 성능 하락
    관련 증거를 질문 직전에 배치여전히 성능 하락

    이 결과의 의미는 심각합니다. 기존에는 long-context 성능 저하가 "모델이 관련 정보를 찾지 못하기 때문(retrieval 실패)"으로 귀인되었으나, Du et al.은 retrieval이 완벽해도 입력의 순수한 길이 자체가 추론 능력을 저하시킴을 증명했습니다. 이는 NIAH(Needle-in-a-Haystack) 같은 retrieval 중심 벤치마크가 long-context 능력을 과대평가하고 있을 가능성을 시사합니다.

    3.4.3 Chroma Context Rot Study (2025)

    Chroma(2025.07)는 18개 LLM(GPT-4.1, Claude 4, Gemini 2.5, Qwen3 포함)을 대상으로 context rot을 체계적으로 평가했습니다.

    Claude가장 느린 성능 저하, 하지만 긴 태스크에서 보수적 거부(abstention) 경향
    GPT비정형적(erratic) 성능 저하, 무작위 오류와 할루시네이션
    Gemini초기부터 성능 저하 시작, 큰 편차(variance)
    Qwen꾸준한 성능 저하, 대형 버전이 상대적으로 양호

    흥미롭게도, 셔플된(비구조적) haystack이 구조화된 텍스트보다 더 나은 성능을 보였습니다. 이는 텍스트의 구조적 패턴이 오히려 attention 메커니즘에 간섭할 수 있음을 시사합니다.

    3.4.4 Veseli et al. (2025): U자형에서 Recency Bias로의 전환

    Veseli et al.(2025)은 Liu et al.의 U자형 편향이 context 사용률에 따라 달라짐을 발견했습니다:

    • Context window 50% 미만 사용: U자형 편향 (시작부 + 끝부 선호)
    • Context window 50% 이상 사용: 끝부 > 중간부 > 시작부 순의 recency bias

    이 전환은 ICL 설계에 실질적인 함의를 갖습니다. Context가 절반 이상 차면 초기 예시의 효과가 급격히 떨어지므로, many-shot을 위해 예시를 앞에 대량 배치하는 전략은 context가 길어질수록 역효과가 될 수 있습니다.

    3.4.5 ICL의 역설: Many-Shot vs Context Rot의 교차점

    Microsoft/York 연구의 "예시가 많을수록 좋다"와 context rot의 "context가 길수록 성능이 지수 감소한다."는 관측이 정면으로 충돌합니다.

    GPT-5는 입력된 Context가 16K를 초과할 경우 추론 성능이 지수적으로 감소합니다. Ref: https://arxiv.org/pdf/2512.24601v1(RLM)

     
    이 sweet spot은 모델, 태스크, context window 사용률에 따라 달라지며, 고정된 값이 아닙니다. Databricks(2024)의 2,000+ 실험도 이를 확인합니다: 대부분의 모델에서 특정 context 크기 이후 RAG 성능이 지수 감소하기 시작합니다(Llama-3.1-405B: 32K 이후, GPT-4: 64K 이후).
    이 역설은 ICL만으로는 agent memory를 구축할 수 없는 가장 근본적인 이유입니다. Context window에 더 많은 예시를 넣을수록 ICL 이점은 증가하지만, 동시에 context rot으로 인한 추론 능력 저하가 그 이점을 상쇄하거나 역전시킵니다. 이 교착 상태를 벗어나려면 context 외부의 메모리 시스템이 필요합니다.


    4. ICL에서 Agent Memory로: 연결 구조

    ICL의 한계를 극복하기 위한 시도들은 크게 3가지 방향으로 발전하고 있습니다.

    4.1 Context Engineering: ICL의 직접 확장

    ICL의 핵심 제약인 context window를 확장하거나 효율적으로 활용하는 접근입니다.
    RAG(Retrieval-Augmented Generation): 필요한 정보를 외부 저장소에서 검색하여 context에 주입합니다. ICL의 "예시를 프롬프트에 포함"하는 패턴을 동적 검색으로 확장한 것입니다.
    Context Compaction: Anthropic(2025)의 conversation compaction, 또는 sliding window 기법 등으로 context를 요약·압축하여 유효 길이를 늘립니다.
    Recursive Language Models (RLM): Prime Intellect(Zhang et al., 2025.12)은 LLM이 스스로의 context를 관리하도록 하는 재귀적 구조를 제안합니다. 모델이 코드를 생성하여 하위 태스크를 자기 자신에게 재귀적으로 위임하며, 이를 통해 context window의 10M+ 토큰 규모까지 효과적으로 처리합니다. 기존 ICL이 고정된 context 내에서만 학습했다면, RLM은 context 자체를 프로그래밍 가능한 객체로 취급합니다.


    4.2 Test-Time Training (TTT): ICL과 IWL의 경계 재정의

    TTT는 ICL의 가장 근본적인 확장으로, 추론 시점에 실제로 가중치를 업데이트합니다.
    Titans (Google, NeurIPS 2025): "surprise signal"(예측 오차)을 기반으로 Neural Memory 모듈의 가중치를 gradient descent로 업데이트합니다. 예측을 크게 벗어나는 토큰(놀라운 정보)일수록 더 강하게 기억하며, 이는 인간의 해마(hippocampus)가 예상을 벗어나는 경험을 우선 저장하는 메커니즘과 유사합니다.
    TTT-E2E (Sun et al., 2025.12, NVIDIA): 보다 급진적인 접근으로, context 자체를 next-token prediction으로 학습하여 가중치에 압축합니다.

    Full Attention (Transformer)O(T²)O(T)느림 (cost 급증)
    Linear Attention (Mamba 등)O(T)O(1)빠르나 loss 열화
    TTT-E2EO(T)O(1)loss와 latency 모두 양호

    TTT-E2E의 핵심 통찰은 다음과 같습니다:

    • 128K context에서 full attention 대비 2.7배 속도 향상, 2M context에서 35배 속도 향상 (H100 기준)
    • Context 길이에 관계없이 decode latency가 상수(O(1))
    • meta-learning을 통해 모델 초기화를 TTT에 최적화하여, 일반 사전학습보다 test-time 학습 효율이 높음

    NVIDIA 블로그(2026.01)는 이를 인간의 해마에 비유합니다: KV cache가 단기 작업 메모리라면, TTT는 이를 모델 가중치라는 장기 저장소로 consolidation하는 과정입니다. 이 비유는 ICL(단기 context 내 학습) → TTT(가중치로의 압축) → IWL(사전학습된 지식)의 연속선상에서 Agent Memory의 계층 구조를 조명합니다.


    4.3 Agent Memory: ICL 너머의 영속적 학습

    ICL은 현재 세션 내에서만 작동하지만, Agent는 세션을 넘어서 학습해야 합니다. 이 간극을 메우는 것이 Agent Memory Architecture입니다.
    "From Storage to Experience"(2026.01) survey는 agent memory의 진화를 3단계로 정리합니다:

    Storage (trajectory preservation)ICL의 raw context를 세션 외부에 보존대화 이력, 실행 로그를 있는 그대로 저장
    Reflection (trajectory refinement)ICL이 하지 못하는 자기 평가를 수행저장된 기록을 동적으로 평가·정제·관리
    Experience (trajectory abstraction)ICL을 넘어 범용 전략을 추출개별 경험을 고차원 행동 패턴으로 추상화

    이 진화는 ICL의 한계를 정확히 보완합니다:

    • ICL의 세션 한계 → Storage 단계가 세션 간 지속성 제공
    • ICL의 통계적 취약성 → Reflection 단계가 환경 피드백으로 기억을 검증·교정
    • ICL의 표면적 패턴 의존 → Experience 단계가 깊은 추상화를 통해 범용 전략 형성

    Anthropic의 Long-Running Agent Harness(2025.11)는 이 구조의 실전 구현입니다. claude-progress.txt(Storage), feature_list.json(Reflection을 통한 구조화), git commit log(시점별 Experience 축적)가 ICL만으로는 불가능한 multi-session 작업 연속성을 제공합니다.


    5. 함의: ICL 활용의 설계 원칙

    5.1 ICL 최적 활용 구간

    단일 세션, 소규모 태스크★★★Few-shot prompting으로 충분
    반복 태스크, 일정한 패턴★★☆ICL + 외부 메모리(파일/MD) 조합
    장기 프로젝트, 세션 간 연속성★☆☆Agent Memory Architecture 필요
    대규모 지식, 정밀 검색☆☆☆RAG/Vector DB 필요

    5.2 ICL 효율 극대화 기법

    Microsoft/York 연구(2025)와 기존 연구를 종합한 실무 권장사항:
    1) 예시 수를 과감하게 늘리십시오. 25개의 few-shot이 관례지만, 토큰 예산이 허용하는 한 50, 100개까지의 many-shot이 효과적입니다. 예시가 많을수록 모델 간, 프롬프팅 기법 간 격차가 줄어들므로, 약한 모델에서 특히 유리합니다.
    2) CoT는 in-distribution에서만 신뢰하십시오. CoT는 예시와 유사한 분포의 입력에서 최고 성능을 내지만, 분포가 달라지면 가장 먼저 무너집니다. OOD 입력이 예상되는 환경에서는 단순한 input-output 매핑이 더 안정적입니다.
    3) 프롬프트 구조가 내용보다 중요합니다. "Word Salad" 실험 결과가 시사하듯, 모델은 예시의 의미보다 형식적 구조(입출력 쌍의 배치, 구분자, 일관된 포맷)에 더 민감합니다. 예시의 내용 최적화 이전에 구조 최적화가 우선입니다.


    6. 위치 지도: ICL → TTT → Agent Memory

    ┌─────────────────────────────────────────────────────────┐
    │                    학습 시점 스펙트럼                       │
    │                                                         │
    │  [Pre-training]──[Fine-tuning]──[TTT]──[ICL]──[RAG]    │
    │       IWL ◄──────────────────────────────────► ICL      │
    │   (가중치에 영구 인코딩)              (context에서 일시적 추론) │
    │                                                         │
    │  ┌─────────┐    ┌─────────┐    ┌─────────┐             │
    │  │ 사전학습  │    │  TTT    │    │  ICL    │             │
    │  │ 지식     │ ←→ │ Context →│ ←→ │ 예시 →  │             │
    │  │ (영구)   │    │ Weight  │    │ 추론    │             │
    │  │         │    │ (세션내) │    │ (일시적) │             │
    │  └─────────┘    └─────────┘    └─────────┘             │
    │                       ▲                                  │
    │                       │                                  │
    │              Agent Memory Layer                          │
    │         (세션 간 지속성 + 구조화)                          │
    │   ┌──────────┬──────────┬──────────┐                    │
    │   │ Storage  │Reflection│Experience│                    │
    │   │(raw log) │ (정제)   │ (추상화) │                    │
    │   └──────────┴──────────┴──────────┘                    │
    └─────────────────────────────────────────────────────────┘

     
    ICL은 이 스펙트럼에서 가장 유연하지만 가장 일시적인 위치에 있습니다. Agent Memory는 ICL의 일시성을 극복하면서도 IWL의 경직성을 피하는 중간 계층으로, 현재 agent 시스템 설계의 핵심 과제입니다.


    7. 결론

    In-Context Learning은 LLM의 가장 독특한 능력이자, 동시에 가장 잘 이해되지 않은 현상입니다. Transformer의 attention 메커니즘이 implicit gradient descent를 수행하고, induction head가 패턴 매칭 회로를 형성하며, Bayesian inference로 latent concept을 추론한다는 세 가지 관점은 각각 ICL의 서로 다른 측면을 포착합니다.
    그러나 ICL에는 두 가지 구조적 한계가 중첩됩니다. 첫째, Microsoft/York 연구(2025)가 보여주듯 ICL은 표면적 통계 패턴에 의존하는 ad hoc 학습이며, 깊은 추상적 일반화에는 한계가 있습니다. 둘째, "예시가 많을수록 좋다"는 many-shot ICL의 이점은 Context Rot(입력 길이 자체가 추론 능력을 저하시키는 현상) 에 의해 상쇄됩니다. Du et al.(2025)이 증명했듯 이 저하는 retrieval 실패와 무관하며, 모델이 관련 정보를 완벽히 찾아내더라도 발생합니다.
    이 이중 한계가 Agent Memory Architecture(Storage에서 Reflection을 거쳐 Experience로 진화하는 계층적 메모리 시스템)의 구조적 동기가 됩니다. Context window 안에서의 학습(ICL)은 context rot이라는 천장에 부딪히므로, context 밖의 영속적 메모리 계층이 필요합니다.
    ICL의 "프롬프트 내 학습"에서 TTT의 "추론 시 가중치 업데이트"로, 다시 Agent Memory의 "세션을 넘어서는 영속적 학습"으로 이어지는 흐름은, LLM 시스템이 일시적 추론에서 지속적 학습으로 진화하는 큰 방향을 보여줍니다.


    References

    1. Brown, T. et al. (2020). "Language Models are Few-Shot Learners." NeurIPS 2020. arXiv:2005.14165
    2. Olsson, C. et al. (2022). "In-Context Learning and Induction Heads." Transformer Circuits Thread, Anthropic. arXiv:2209.11895
    3. Von Oswald, J. et al. (2023). "Transformers Learn In-Context by Gradient Descent." ICML 2023. arXiv:2212.07677
    4. Ahn, K. et al. (2023). "Transformers Learn to Implement Preconditioned Gradient Descent for In-Context Learning." NeurIPS 2023.
    5. Xie, S. M. et al. (2022). "An Explanation of In-Context Learning as Implicit Bayesian Inference." ICLR 2022.
    6. Chan, S. et al. (2022). "Data Distributional Properties Drive Emergent In-Context Learning in Transformers." NeurIPS 2022.
    7. Microsoft/York (2025). "Is LLM In-Context Learning Real Learning?" bdtechtalks.com
    8. Anand, S. et al. (2025). "Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting." arXiv:2406.00053
    9. "The Mystery of In-Context Learning: A Comprehensive Survey." EMNLP 2024. aclanthology.org
    10. Sun, Y. et al. (2025). "End-to-End Test-Time Training for Long Context." arXiv:2512.23675
    11. Titans — Behrouz, A. et al. (2025). "Titans: Learning to Memorize at Test Time." Google. NeurIPS 2025.
    12. NVIDIA Technical Blog (2026.01). "Reimagining LLM Memory: Using Context as Training Data Unlocks Models That Learn at Test-Time." developer.nvidia.com
    13. Zhang, A. et al. (2025). "Recursive Language Models." Prime Intellect. arXiv:2512.24601
    14. "From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms." (2026.01). preprints.org
    15. Muşat, T. (2025). "On the Emergence of Induction Heads for In-Context Learning." arXiv:2511.01033
    16. "Learning without training: The implicit dynamics of in-context learning." (2025.07). arXiv:2507.16003
    17. "Induction Heads as an Essential Mechanism for Pattern Matching." NAACL 2025 Findings. aclanthology.org
    18. Zhang, Y. et al. (2025). "Training Dynamics of In-Context Learning in Linear Attention." arXiv:2501.16265
    19. Young, J. / Anthropic Engineering. (2025.11). "Effective Harnesses for Long-Running Agents." anthropic.com
    20. LangChain Blog. (2025.01). "In software, the code documents the app. In AI, the traces do." blog.langchain.com
    21. Liu, N. F. et al. (2024). "Lost in the Middle: How Language Models Use Long Contexts." TACL, vol. 12, pp. 157-173. aclanthology.org
    22. Du, Y. et al. (2025). "Context Length Alone Hurts LLM Performance Despite Perfect Retrieval." EMNLP 2025 Findings, pp. 23281-23298. aclanthology.org
    23. Chroma (2025.07). "Context Rot Study." cobusgreyling.substack.com (analysis)
    24. Databricks Blog (2024). "Long Context RAG Performance of LLMs." databricks.com
    25. Hsieh, C.-P. et al. (2024). "RULER: What's the Real Context Size of Your Long-Context Language Models?" NVIDIA. arXiv:2404.06654
    26. diffray (2025.12). "Context Dilution: When More Tokens Hurt AI." diffray.ai

    댓글

ABOUT ME

🎓 부산대학교 정보컴퓨터공학과 학사: 2017.03 - 2023.08
☁️ Rakuten Symphony Jr. Cloud Engineer: 2024.12.09 - 2025.08.31
🏆 2025 AI 새싹톤 우수상 수상: 2025.10.30 - 2025.12.02
🌏 이코에코(Eco²) 백엔드/인프라 고도화 중: 2025.12 - Present

Designed by Mango