Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- Mean squared error
- 시계열
- rag parsing
- Non-Maximum Suppression
- 오차역전파
- 활성화 함수
- visual instruction tuning
- Cross Entropy Error
- 합성곱 신경망
- pdf parsing
- multi-query
- 딥러닝
- LLM
- 퍼셉트론
- 이상탐지
- qlora
- 파인튜닝
- 손실함수
- LLaVA
- gemma3
- leetcode
- rrf
- deep learning
- 데이터 파싱
- fine tuning
- anomaly detection
- nlp
- Time Series
- rag-fusion
- 활성화함수
Archives
- Today
- Total
목록2025/03/22 (1)
Attention, Please!!!
LLM 추론 시 GPU 메모리 사용량 알아보기
대규모 언어 모델의 개발과 활용이 점점 더 보편화되면서, 모델의 효율성을 극대화하는 것이 핵심 과제로 떠오르고 있는 추세이다. 특히 추론 단계에서 메모리 사용량을 정확하게 추정하여, 배포하고 운영하는 것은 서비스 측면에서 가장 필수적인 요소이다. 모델의 성능이 아무리 뛰어나도 배포 환경에서 실행되지 않는다면 무용지물이다. DeepSeek-R1 모델은 685B 파라미터 (즉, 6850억 개의 파라미터)에 달하는 것을 클라우드 환경에서 상당한 자원을 요구할 것이며, 엣지 디바이스에서는 실행 자체가 거의 불가능할 것이다. 이에 따라 메모리 사용량을 미리 분석하여 모델을 경량화하거나 최적화 기법을 적용해 배포할 수 있도록 만드는 것이 가장 중요하다고 생각한다. 따라서, 본 게시물에서는 LLM을 사용할 때, 메..
LLM
2025. 3. 22. 02:07