Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- deep learning
- 퍼셉트론
- qlora
- 시계열
- Non-Maximum Suppression
- pdf parsing
- fine tuning
- Cross Entropy Error
- Mean squared error
- 데이터 파싱
- rrf
- 활성화 함수
- 이상탐지
- 손실함수
- 합성곱 신경망
- 파인튜닝
- 딥러닝
- nlp
- multi-query
- anomaly detection
- gemma3
- leetcode
- 오차역전파
- LLM
- rag parsing
- rag-fusion
- visual instruction tuning
- Time Series
- LLaVA
- 활성화함수
Archives
- Today
- Total
목록2025/03/22 (1)
Attention, Please!!!
LLM 추론 시 GPU 메모리 사용량 알아보기
대규모 언어 모델의 개발과 활용이 점점 더 보편화되면서, 모델의 효율성을 극대화하는 것이 핵심 과제로 떠오르고 있는 추세이다. 특히 추론 단계에서 메모리 사용량을 정확하게 추정하여, 배포하고 운영하는 것은 서비스 측면에서 가장 필수적인 요소이다. 모델의 성능이 아무리 뛰어나도 배포 환경에서 실행되지 않는다면 무용지물이다. DeepSeek-R1 모델은 685B 파라미터 (즉, 6850억 개의 파라미터)에 달하는 것을 클라우드 환경에서 상당한 자원을 요구할 것이며, 엣지 디바이스에서는 실행 자체가 거의 불가능할 것이다. 이에 따라 메모리 사용량을 미리 분석하여 모델을 경량화하거나 최적화 기법을 적용해 배포할 수 있도록 만드는 것이 가장 중요하다고 생각한다. 따라서, 본 게시물에서는 LLM을 사용할 때, 메..
LLM
2025. 3. 22. 02:07