일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Time Series
- LLM
- Non-Maximum Suppression
- multi-query
- fp32
- 손실함수
- 데이터 파싱
- 합성곱 신경망
- LLaVA
- 활성화함수
- Cross Entropy Error
- fp16
- visual instruction tuning
- gemma3
- anomaly detection
- leetcode
- rag parsing
- 오차역전파
- bf16
- 딥러닝
- Mean squared error
- 이상탐지
- rrf
- 파인튜닝
- 활성화 함수
- qlora
- deep learning
- pdf parsing
- fine tuning
- rag-fusion
- Today
- Total
목록2025/05 (2)
Attention, Please!!!
대규모 언어 모델(LLM)의 Self-Attention 메커니즘은 모델의 성능을 좌우하는 가장 핵심적인 요소로, 문맥을 전역적으로 이해하고 복잡한 언어의 패턴을 학습하는 데 필수적이다. 그러나, Multi-Head Attention(이하 MHA)은 높은 계산 비용과 메모리 사용량으로 인해 대규모 모델의 효율적인 학습과 추론에 제약적이다. 이를 해결하기 위해 제안된 Grouped-Query Attention(이하 GQA)가 제안되었으며, 이는 쿼리 헤드를 적은 수의 키-값(KV)헤드로 그룹화하여 메모리 사용량을 줄이고 추론 속도와 효율성을 높였다. 하지만, GQA의 방식은 모델에 따라 품질 저하가 발생하는 단점이 있다. 이러한 한계를 극복하기 위해 DeepSeek에서 제안하였던 Multi-Head Lat..
초기 대형 언어 모델들은 대체적으로 float32 데이터 유형을 통해 훈련하고 배포된다. 하지만 float32는 각 파라미터가 32비트 (즉, 4바이트)를 차지하기 때문에, LLaMA 3와 같은 700 억 개 파라미터를 가진 모델의 경우 필요한 메모리의 소비량이 대략 280GB에 달한다. 이 엄청난 메모리 사용량은 대규모 모델의 배포와 운영적인 측면에서 어려움을 겪고 있다. 이에 이러한 문제를 해결하기 위해 LLM 개발자들은 메모리 소비를 절반으로 줄일 수 있는 float16를 사용하고 있는 추세이다. 하지만 float16으로 전환하는 것은 다양한 문제점을 동반한다. float16은 표현 가능한 숫자의 범위와 정밀도가 float32에 비해 훨씬 적기 때문에, 모델 훈련 중에 오버플로우(숫자가 커져 버리는..