Attention, Please!!!

[논문 리뷰] Nested Learning 부셔버리기 (Feat. 선행성 기억상실증) 본문

논문리뷰

[논문 리뷰] Nested Learning 부셔버리기 (Feat. 선행성 기억상실증)

G3LU 2025. 12. 4. 03:42

최근 소개된 다양한 LLM은 층을 깊게 쌓아 representation과 capacity를 늘림으로써 일반적인 성능을 향상해왔다. 하지만 이러한 깊은 구조가 모든 문제, 특히 스도쿠와 같이 복잡한 알고리즘적 사고가 필수적인 Task에 적합하지 않았으며, 오히려 모델의 깊이나 너비를 늘려도 특정 파라미터 클래스의 용량은 한계적으로만 개선될 수 있다는 연구 결과가 존재한다. 현재의 LLM은 사전 학습이 끝나고 배포되는 순간부터 Static한 파라미터를 가지게 된다. 즉, 모델은 학습 시점까지의 데이터는 MLP 레이어에 저장이 되지만, 이후 새로운 데이터는 일시적인 컨텍스트 윈도우(Attention Mechanism)에서만 처리될 뿐, 이를 MLP 레이어와 연결하여 저장하는 메커니즘이 부족하다. 이를 조금 더 쉽게 비유하자면, 선행성 기억상실증과 매우 유사하다. 과거의 기억은 온전하지만 새로운 사건을 장기 기억으로 형성하지 못해 늘 현재만을 경험하는 것처럼, 현재의 LLM 또한 문맥 정보를 통해 장기 기억 파라미터를 업데이트 하지 못하기 때문에 새로운 지식을 업데이트하지 못하는 한계점이 존재한다. 부가적으로, 이러한 새로운 정보를 내포하기 위해 학습을 하게 된다면, 기존에 형성이 되어있던 Static Parameter의 분포가 훼손되면서 과거의 지식을 잃어버리는 파괴정 망각이 발생한다. 이에 따라, 본 게시물에서는 이를 해결하고자 2025년 11월에 소개된 Nested Learning에 대해  알아보고자 한다.

 

굉장히 논문이 길기 때문에 해당 게시물을 읽고 이해가 안되는 부분이 있다면, 직접 읽어보는 것을 추천드립니다! 


 

도대체 어떻게 해결하였을까? 

앞전에 소개하였듯이, 현재까지 연구된 LLM의 공통적인 문제점은 소위 "선행성 기억상실증"이라고 할 수 있다. 이러한 현상은 LLM이 사전 학습이라는 거대한 과거의 경험은 장기 기억(MLP 가중치)으로 잘 보존하고 있지만, 배포 이후에 마주하는 새로운 데이터/정보를 장기 기억으로 전환하는 메커니즘이 부족하기 때문에 발생한다. 이로 인하여 본 논문의 저자들은 static parameter와 LLM의 구조적 단절로 인하여 Continual Learning이 불가능하다고 지적하였다. 이는 대부분의 최신 LLM은 학습과 추론이 분리된 구조를 띠고 있어, 입력된 정보가 장기 기억으로 전환되지 못하는 한계가 있다. 문맥 정보는 Attention Mechanism을 통해 잠시 스쳐 지나갈 뿐이지만, 과거의 지식은 MLP 레이어에 고정된 가중치 형태로 영구히 남아 있다. 따라서 새로운 입력이 들어와도 이 고정된 가중치를 물리적으로 변화시키지 못하기 때문에, 모델은 새로운 정보를 학습할 수 없다는 한계점이 존재한다.

Nested Learning의 아이디어

 

 

이와 같은 문제점을 해결하기 위해 Nested Learning 패러다임을 제시하였으며, 이는 인간의 뇌와 굉장히 비슷하다고 제기하였다. 즉, 인간은 새로운 경험을 하게 되면 즉각적으로 시냅스에 반영(Online Consolidation)하고, 이를 장기 기억으로 통합(System Consolidation)하는 과정을 진행한다고 한다. 이러한 뇌과학적 영감(Neurophysiological Motivation)을 바탕으로, Nested Learning은 모델을 단일한 덩어리가 아닌 서로 다른 주파수로 업데이트되는 중첩된 최적화 문제들의 집합으로 정의하였다. 즉, 인간은 뇌는 하나의 덩어리에 의존하지 않고, 델타파(느림)부터 감마파(빠름)까지 다양한 주파수의 뇌파를 통해 정보를 계층적으로 처리한다는 점에 착안한 설계이다. 

 

구체적으로 NL 아키텍처는 Multi-Time Scale Update를 핵심적인 메커니즘으로 채택하였다.  이는 모델의 파라미터를 단일한 속도로

업데이트하는 것이 아니라, 뇌파처럼 서로 다른 주파수를 가진 여러 레벨로 나누어 업데이트하는 방식을 의미한다. 

  • 고주파수(High Frequency) 모듈: 모듈의 앞단이나 특정 구성 요소는 매우 빠른 주기로 파라미터를 업데이트 한다. 이는 뇌의 "Online Consolidation"에 해당하며, 실시간으로 입력되는 문맥 정보를 즉각적으로 포착하고 빠르게 변환한다. 즉, Attention 메커니즘이라고 생각하면 될거 같다. 
  • 저주파수(Low Frequency) 모듈: 반면, 더 깊은 레벨의 모듈은 아주 긴 주기를 가지고 천천히 업데이트 한다. 이는 "System Consolidation"에 해당하며, 장기간에 걸쳐 중요한 정보만을 압축하여 보존한다. 즉, 사전 학습된 파라미터를 내포하고 있는 MLP 가중치라고 생각하면 될거 같다. 

이를 합리적으로 구현하기 위해 저자들은 HOPE (High-Order Optimization & Parallel Execution)이라는 모델과 연속적인 메모리 시스템 (Continuum Memory System, CMS)을 제안하였다. CMS는 기존의 단기 기억 (Attention Mechanism)과 장기 기억 (MLP)의 구분을 없애고, 다양한 업데이트 주기를 가진 MLP 블록들을 체인처럼 연결한 구조이다. 이에 따라 결과적으로 입력된 정보에 따라 스스로 파라미터를 수정할 수 있게 되어, Catastrophic Forgetting (파괴적 망각) 없이 Contiunal Learning이 가능해진다. 


기존 Neural Learning Module과의 차이점은 무엇일까? 

기존의 딥러닝 관점과 본 논문에서 제안하는 Nested Learning 방식의 결정적인 차이를 아래 그림을 통해 시각적으로 대조하여 설명하고 있다. 처음에 보면 다음과 같은 그림을 해석하는 데, 어느정도의 시간이 걸리지만 이해하고 보면 굉장히 단순하다. 

 

 

기존 Neural Network의 차이점

 

우선 왼쪽 상단의 그림은 하이브리드 아키텍처 (RNN과 Attention의 결합)를 바라보는 관점을 두 가지로 비교한다.

 

기존의 딥러닝 관점은 모델을 단순히 연산 블록들이 평면적으로 나열된 형태이며, 학습 과정과 아키텍처가 별개로 존재하며, 내부의 그래디언 흐름(Gradient Flow)이 블랙박스처럼 숨겨져 있다. 하지만 Nested Learning의 신경 학습 모듈은 모델 전체를 중첩된 최적화 문제의 집합으로 정의한다. 즉, 각 모듈이 단순하게 입력을 출력으로 내뱉는 것이 아니라, 입력 데이터를 자신의 파라미터에 압축하고 저장하는 독립적인 학습 주체로서, 기존 딥러닝과는 전혀 다른 모습을 보여준다. 

 

더 나아가 기능적으로 작동하는 방식에도 근본적인 차이점이 존재한다. 기존 모듈은 사전 학습이 끝나게 되면 파라미터가 고정되어, 새로운 정보를 학습할 수 없는 상태가 된다. 하지만 Nested Learning에서는 Self-modifying 모듈을 통해 추론하는 단계에서 목적 함수와

Multi-time Scale Update 메커니즘을 기반으로 파라미터를 실시간으로 업데이트할 수 있게 된다.

 

그렇다면, Nested Learning은 도대체 어떠한 원리로 추론 단계에서도 스스로 파라미터를 수정할 수 있는 것일까? 이를 이해하기 위해서는 본 논문에서 새롭게 정의하고 있는 Associate Memory의 개념을 살펴봐야한다. 


[중요!] Associate Memory: 모든 것이 메모리였네...?  

본 논문은 신경심리학적 관점을 기반으로 학습과 기억의 개념을 구분하는 것으로 시작한다. 종종 LLM 관련 논문들을 읽어보면,  두 개의 단어가 혼용되어 사용되지만,  여기에서는 기억(Memorization)은 입력에 의해 발생하는 신경망의 상태 업데이트 (Neural Update)로 정의되며, 학습(Learning)은 효과적인 기억을 획득해 나아가는 과정(Process)라고 정의하였다. 즉, 이러한 관점을 기반으로 모델의 파라미터를 업데이트할 때 단순하게 값을 저장하는 것이 아니라,  입력에 따라 신경망의 상태가 동적으로 변화하는 "기억의 형성" 과정으로 바라보게 되는 논문의 토대가 된다. 

 

이러한 관점은 Attention Mechanism을 바라보는 시각을 완전히 뒤바꿀 수 있게된다. 기존에는 단순하게 Key와 Value가 단순히 Query와의 유사도를 계산하기 위한 피연산자(Operand)에 불과하였으며, 정해진 수식에 따라 계산될 뿐 그안에서 별도의 최적화 혹은 학습이 이루어지지 않는다. 하지만 본 논문의 저자들은 Key와 Value가 단순한 Attention 연산의 재료가 아닌, 메모리가 반드시 기억(매핑)해야할 대상이라고 주장하였다. 즉, 연관 메모리(Associate Memory)의 관점에서는 Attention 연산이 Key와 Value 사이의 관계를 학습하여 파라미터에 압축하는 최적화 과정이며, 이를 통해 본 논문의 토대가 되는 "기억의 형성"이 될 수 있다고 주장하였다 .

Equation 1. Network that aims to compress the mappings into its parameters in a lower dimenstional space

 

여기에서 본 논문의 저자들은 해당 수식을 통해  Sequence Modeling의 다양한 아키텍처들을 하나의 통합된 관점으로 설명할 수 있다고 제시하였다. 구체적으로, 저자들은 우리가 흔히 사용하는 모델의 종류(Softmax Attention, Linear Attention 등)가 근본적으로 다른 것이 아니라, 공통된 최적화 문제를 풀기 위해 어떤 재료와 목적 함수를 선택하느냐에 따라 다른 결과물일 뿐이라고 설명하였다.  조금 더 구체적으로 바라보면 다음과 같다: 

  • Trasformer (Softmax Attention) : 만약 메모리(M)을 특정 크기로 압축하지 않고, 과거의 모든 K,V를 보존한 상태에서 Softmax 함수를 통해 매핑한다면, 우리가 흔히 아는 Global/Local Softmax Attention 아키텍처가 된다
  • Modern RNN (Linear Attention): 반면, 이 문제를 경사 하강법을 사용하여 하나의 행렬에 실시간으로 압축해 넣는 방식으로 접근한다면, 이는 Linear Attention이나 본 논문의 기반이 되는 Titan와 같은 RNN 모델이 된다. 

더 나아가, 본 논문의 저자들은 Nested Learning의 핵심적인 이론 (Associate Memory)을 실제 예시(MLP, Momentum, Linear Attention)를 통해 수학적으로 아래와 같이 증명하였다.


Level 1 Optimization: Simple Example of MLP Traning

가장 먼저, 기초적인 1-Layer MLP를 Gradient Descent으로 학습시키는 상황에 대해 알아보도록 하자. 흔히 아는 것처럼 일반적으로 Gradient Descent는 아래의 수식처럼 손실함수(L)을 줄이기 위해 가중치를 그래디언트의 반대 방향으로 이동시키는 과정으로 알고 있을 것이다. 

Gradient Descent 공식

 

본 논문에서는 위 수식이 사실은 입력 데이터(x)가 이에 대한 에러 신호(u)에 매핑하도록 메모리(W)를 최적화하는 과정이라고 주장한다.  이를 수학적으로 증명하기 위해 Titans 논문에 소개되었던 Local Surprising Signal(LSS)라는 개념을 다시 착안하였다. 이는 모델의 출력이 정답과 얼마나 동떨어져 있는지를 나타내는 값(즉, 출력에 따른 그래디언트)이며, 이를 다음과 같이 정의할 수 있다. 

Local Surprising Signal 수식 (Titans 논문의 핵심적인 내용)

 

이러한 개념을 바탕으로, 저자들은 일반적인 Gradient Descent가 Associate Memory 최적화 문제를 푼 결과와 정확하게 일치하는 것을 다음과 같이 수학적으로 증명할 수 있다. 

 

결론적으로 우리가 흔히 사용하고 있는 Gradient Descent이 Associate Memory 최적화 문제의 해와 정확하게 일치하는 것을 보았다. 이는 단순한 1-layer MLP의 학습조차도 데이터(x)와 그에 따른 신호(u) 사이의 매핑 관계를 파라미터(W)에 압축해 넣는 시스템임을 시사한다. 즉, 모델은 단순히 에러를 줄이는 것이 아니라, 이 데이터를 넣으면 이만큼 놀라야(틀려야)한다는 정보를 기억하고 있다는 것을 의미한다. 


Level 2 Optimization: Momentum 

다음으로, Gradient Descent에 Momentum를 추가한 사례에 대해 알아보고자 한다. 일반적으로 Mometum은 학습 속도를 높이고 Local Minima을 탈출하기 위해 흔히 사용되고 있는 기법이다. 하지만 Nested Learning 관점에서는 좀 다르게 적용이 된다. 본 논문에서는 이를 과거의 그래디언트들을 자신의 파라미터(m)에 압축하여 저장하는 시스템으로 정의하였다. 조금 더 직관적으로 설명을 해보자면, momentum을 사용한다는 것은 모델 안에 그래디언트를 기억하는 또 하나의 작은 메모리 모델이 키운다 라고 생각하면 좋을거 같다. 

 

우선, Mometum에 대한 규칙은 아래 수식과 같다:

일반적인 Mometum 기반의 업데이트 규칙

 

논문에서는 그래디언트 정보를 누적하는 "모멘텀 업데이트" 자체가 하나의 독립적인 최적화 문제임을 아래와 같이 증명하였다. 

 


Level 3 Optimization: Architectural Decomposition (Linear Attention) 

마지막으로, 아키텍처 레벨에서 중첩 구조를 확인하기 위해 Linear Attention 관점에서 살펴보고자 한다. 일반적으로 Linear Attention은 매 시점(t)마다 새로운 토큰 정보를 받아 메모리 행렬(M)을 다음과 같이 업데이트하게 된다. 

 

본 논문에서 주장하는 바는, 이와 같은 단순한 덧셈 공식이 사실은 현재의 Key와 Value의 매핑 관계를 잘 설명하도록 메모리(M)를 1회 학습시킨 결과라고 한다. 이를 수학적인 관점에서 바라보면 다음과 같이 정의될 수 있다 (위와 같은 방식으로 수식이 전개되기 때문에 해당 사항에 대해서는 반영하지 않고자 한다). 

 

위 수식을 정리 하다보면, 놀랍게도 기존의 Linear Attention 업데이트 공식과 정확히 일치하는 결과를 얻을 수 있게 된다. 이러한 결과가 시사하는 바는 매우 의미론적으로 크다. 우리는 단순하게 행렬을 더하는 연산이라고 생각했던 과정이, 사실은 현재의 문맥(즉, Key와 Value)을 가장 잘 기억하기 위해 메모리 모델(M)이 스스로 실시간으로 학습(Gradient Descent)한 결과임을 증명할 수 있기 때문이다. 

 

이에 따라, Linear Attention 모델은 단일한 연산을 수행하는 것이 아니라, 두 개의 최적화가 가능한 Nested Learning 패러다임에 부합하다고 재해석될 수 있다. 

  • Inner Loop(추론 단계): 메모리 행렬 M은 고정된 더 이상 Static Parameter로 한정짓지 않는다. 이는 모델이 추론하는 매 순간순간 마다 입력되는 문맥(즉, Key와 Value)을 기반으로 경사하강법과 결합되어 현재의 정보를 실시간으로 업데이트 하게 되는 것이다. 
  • Outer Loop(학습 단계): 반면, Projection Layer (W)와 같은 외부 파라미터들은 기존 방식과 유사하게 학습된다. 

결론적으로 Nested Learning 관점에서 다시 바라보자면, 모델은 배보된 이후에 MLP 레이어에 가중치가 저장되어 있는 Static Parameter를 기반으로 멈춰있는 것이 아니라, 위와 같은 Inner and Outer Loop를 통해 끊임없이 데이터를 학습하는 Continual Learning이 가능해진 것을 보여준다. 


[중요] Hope: A Self-Referential Learning Module with Continuum Memory

제안하는 HOPE 아키텍처

 

1. Deep Self-Referential Titans: 단기적인 기억 (Attenion Mechanism 고도화)

AI 관련 논문을 읽거나 다양한 분야에서 연구를 하다보면 가장 중요한 질문은 "왜?" 라고 생각된다. 위에서도 언급된 내용이지만, 다시금 왜라는 질문에 답변을 통해 논문에서 제안하는 방식이 어떠한 문제점을 해결하는지에 대해 짚고 넘어가고자 한다. 트랜스포머의 Projection Matrix (Wk, Wv, Wq) 같은 경우, 사전 학습이 끝나면 고정이 된다. 이에 따라 문맥이 바뀌어도 이 행렬들은 변하지 않는 문제점이 있어, Continual Learning(즉, 지속적으로 문맥이 주입이 된다고 하더라도 나중에는 Catastropic Forgetting으로 인하여 해당 문맥을 잃어버리는 문제점)이 불가능하였다. 이러한 문제를 해결하기 위해 본 논문의 저자들은 Self-Modifying 모델 (HOPE)을 제안하였다. 

 

조금 더 구체적으로 바라보면, 기존의 Attention Mechanism은 입력 x를 Key, Value, Query로 변활할 때 고정된 행렬(W)를 사용한다. 하지만, Self-Referential Titan 관점에서는 이러한 프로젝션 과정을 Associate Memory를 아래와 같이 대체한다.

 

즉, Key 혹은 Value를 만드는 과정이 기존처럼 고정되어 있지 않고, 이전 문맥에 따라 매 순간 변화하게 되는 것을 의미한다. 더 나아가 학습률이나 망각 게이트와 같은 하이퍼파라미터 조차도 고정된 상수 값이 아니라, 문맥에 따라 최적의 값을 스스로 생성하는 구조이다. 그렇다면, 레이블이 존재하지 않는 Inference 단계에서 이와 같은 정의한 Associate Memory 모델은 도대체 어떤 것을 학습하는걸까? 라는 질문을 할 수 있게 된다. 

 

이에 대한 해답은 Self-Referential 및 Self-Generating Target 매커니즘을 통해 알아 볼 수 있다. 일반적으로 지도학습에서는 Label과 모델의 예측값 사이의 오차를 줄이는 방식으로 학습이 된다. 하지만, 제안되는 Nested Learning 관점에서는 Label에 의존하지 않고, 현재 상태를 기반으로 예측한 값을 학습의 목표로 삼게 된다. 이를 논문에서는 Self-Referential이라고 부르며, 이는 아래와 같이 두 단계로 진행된다. 

 

입력된 데이터를 자신의 현재 메모리 상태에 통과시켜 "지금 내가 알고 있는 것에 따르면, 현재 입력으로 들어오는 데이터는 이런 형태로 압축해야해!"와 같이 가상의 목표 값을 스스로 예측하도록 진행이 된다. 

이와 같이 목표가 설정이 된다면, 기존의 지도학습처럼 오차를 계산할 수 있게 된다. 각 메모리는 현재의 입력이 스스로 설정한 목표와 일치하도록 만들기 위해, 자신의 파라미터를 즉각적으로 업데이트하게 된다. 논문에서는 이를 수행하기 위해 Decorrelated Gradient Descent을 적용하였다. 

여기에서 각각에 대한 항은 다음과 같다: 

  • 기억의 감쇠 및 조정: 불필요한 과거 정보를 지우거나 조정하여 새로운 정보를 위한 공간을 확보한다.
  • 새로운 정보의 학습: 스스로 설정한 목표와 실제 입력 간의 차이를 계산하여, 학습률 만큼 파라미터에 반영한다. 

결론적으로, 위 내용을 정리해보자면 Self-Modifying Titan은 문맥에 따라 "무엇을 기억할지(Target), 얼마나 빨리 배울지(Learning Rate), 무엇을 잊을지(weight decay)를 스스로 설정한 목표에 따라 실시간으로 최적화하는 모듈이다. 

 

2. Continuum Memory System: 장기적인 기억 

Self-Modifying 모듈을 통해 생성된 정보들은 이후 CMS으로 전달이 된다. 기존의 딥러닝 아키텍처는 정보를 빠르게 처리한다는 장점이 존재하지만, 금방 휘발되는 단기 기억(Attention)과 한 번 학습되면 변하지 않는 장기 기억(Pre-trained MLP)이라는 구조에 갇혀있다. 하지만, CMS는 기억을 다양한 업데이트 주기(multi-time scale update)를 가진 스펙트럼의 연속체로 재정의한다. 단일 신경망 구조가 아니라, 서로 다른 업데이트 주파수(f)를 가진 k 개의 MLP 블록들이 직렬로 연결되는 구조를 형성한다. 

 

입력 데이터는 이 체인을 순차적으로 통과하게 되는데, 모든 파라미터가 동일한 속도로 학습되지 않는다. 각각의 MLP 레이어는 주파수(Update Frequency)와 청크 크기(Chunk Size)를 부여받아 학습을 수행하게 된다. 

  • 고주파수(High Frequency) 모듈: 모듈의 앞단이나 특정 구성 요소는 매우 빠른 주기로 파라미터를 업데이트 한다. 이는 매우 작은 크기의 청크를 가지며, 실시간으로 입력되는 문맥 정보에 대한 파라미터를 빈번하게 수정하면서 문맥의 디테일을 포착한다. 
  • 저주파수(Low Frequency) 모듈: 반면, 더 깊은 레벨의 모듈은 아주 긴 주기를 가지고 천천히 업데이트 한다. 이는 상대적으로 큰 청크 크기를 처리하며, 과거의 중요한 지식이 쉽게 변하지 않게 파라미터를 미세하게 수정한다.

이와 같이 다양한 주파수를 처리하기 위해서 본 논문의 저자들은 Delayed Accumulated Update라는 학습 규칙을 도입하였다. 이는 단순하게 i번째 파라미터가 매 순간 갱신되는 것이 아니라, 특정 청크 크기만큼 데이터가 쌓일 때까지 그레디언트를 누적했다가 한 시점에 업데이트 하는 방향으로 진행이 된다.