Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
Tags
- qlora
- fine tuning
- pdf parsing
- Nested Learning
- Mean squared error
- 오차역전파
- 활성화함수
- deep learning
- rag parsing
- 딥러닝
- LLM
- multi-query
- bf16
- rrf
- anomaly detection
- visual instruction tuning
- 파인튜닝
- LLM 패러다임
- 데이터 파싱
- gemma3
- rag-fusion
- fp32
- Non-Maximum Suppression
- LLaVA
- fp16
- Time Series
- Cross Entropy Error
- 합성곱 신경망
- 이상탐지
- 활성화 함수
Archives
- Today
- Total
목록Nested Learning (1)
Attention, Please!!!
[논문 리뷰] Nested Learning 부셔버리기 (Feat. 선행성 기억상실증)
최근 소개된 다양한 LLM은 층을 깊게 쌓아 representation과 capacity를 늘림으로써 일반적인 성능을 향상해왔다. 하지만 이러한 깊은 구조가 모든 문제, 특히 스도쿠와 같이 복잡한 알고리즘적 사고가 필수적인 Task에 적합하지 않았으며, 오히려 모델의 깊이나 너비를 늘려도 특정 파라미터 클래스의 용량은 한계적으로만 개선될 수 있다는 연구 결과가 존재한다. 현재의 LLM은 사전 학습이 끝나고 배포되는 순간부터 Static한 파라미터를 가지게 된다. 즉, 모델은 학습 시점까지의 데이터는 MLP 레이어에 저장이 되지만, 이후 새로운 데이터는 일시적인 컨텍스트 윈도우(Attention Mechanism)에서만 처리될 뿐, 이를 MLP 레이어와 연결하여 저장하는 메커니즘이 부족하다. 이를 조금 더..
논문리뷰
2025. 12. 4. 03:42