'LLM' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록LLM (3)

Attention, Please!!!

[논문 리뷰] Nested Learning 부셔버리기 (Feat. 선행성 기억상실증)

최근 소개된 다양한 LLM은 층을 깊게 쌓아 representation과 capacity를 늘림으로써 일반적인 성능을 향상해왔다. 하지만 이러한 깊은 구조가 모든 문제, 특히 스도쿠와 같이 복잡한 알고리즘적 사고가 필수적인 Task에 적합하지 않았으며, 오히려 모델의 깊이나 너비를 늘려도 특정 파라미터 클래스의 용량은 한계적으로만 개선될 수 있다는 연구 결과가 존재한다. 현재의 LLM은 사전 학습이 끝나고 배포되는 순간부터 Static한 파라미터를 가지게 된다. 즉, 모델은 학습 시점까지의 데이터는 MLP 레이어에 저장이 되지만, 이후 새로운 데이터는 일시적인 컨텍스트 윈도우(Attention Mechanism)에서만 처리될 뿐, 이를 MLP 레이어와 연결하여 저장하는 메커니즘이 부족하다. 이를 조금 더..

논문리뷰 2025. 12. 4. 03:42

거대 언어 모델 : BF16, FP16, FP32에 따른 추론 성능 알아보기

초기 대형 언어 모델들은 대체적으로 float32 데이터 유형을 통해 훈련하고 배포된다. 하지만 float32는 각 파라미터가 32비트 (즉, 4바이트)를 차지하기 때문에, LLaMA 3와 같은 700 억 개 파라미터를 가진 모델의 경우 필요한 메모리의 소비량이 대략 280GB에 달한다. 이 엄청난 메모리 사용량은 대규모 모델의 배포와 운영적인 측면에서 어려움을 겪고 있다. 이에 이러한 문제를 해결하기 위해 LLM 개발자들은 메모리 소비를 절반으로 줄일 수 있는 float16를 사용하고 있는 추세이다. 하지만 float16으로 전환하는 것은 다양한 문제점을 동반한다. float16은 표현 가능한 숫자의 범위와 정밀도가 float32에 비해 훨씬 적기 때문에, 모델 훈련 중에 오버플로우(숫자가 커져 버리는..

LLM 2025. 5. 3. 18:27

[논문리뷰] Visual Instruction Tuning (LLaVA)

LLaVA : Large Language and Vision Assistant Paper | Github | Demo | Project Page 💡 Introduction 최근 GPT-4, Vicuna, FLAN-T5 등 다양한 거대 언어 모델(LLM, Large Language Model)에 대한 멀티모달 연구가 활발히 이루어지고 있으며, 성능이 점진적으로 발전하여 다양한 분야에서 활용되고 있습니다. 하지만 기존 멀티모달 테스크에서 이미지-텍스트 쌍의 데이터는 단순히 텍스트가 이미지에 대한 설명으로 이루어진 경우가 대부분입니다. 이러한 데이터를 사용할 경우 모델이 이미지를 단순히 설명하는 방식으로 주로 학습이 진행되기 때문에, 이미지에 대해 질의응답을 하고 대화를 하는데 한계가 있습니다.이에 논문..

논문리뷰 2024. 4. 28. 17:31

이전 Prev 1 Next 다음

목록LLM (3)

Attention, Please!!!

티스토리툴바