'2025/03/22 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2025/03/22 (1)

Attention, Please!!!

LLM 추론 시 GPU 메모리 사용량 알아보기

대규모 언어 모델의 개발과 활용이 점점 더 보편화되면서, 모델의 효율성을 극대화하는 것이 핵심 과제로 떠오르고 있는 추세이다. 특히 추론 단계에서 메모리 사용량을 정확하게 추정하여, 배포하고 운영하는 것은 서비스 측면에서 가장 필수적인 요소이다. 모델의 성능이 아무리 뛰어나도 배포 환경에서 실행되지 않는다면 무용지물이다. DeepSeek-R1 모델은 685B 파라미터 (즉, 6850억 개의 파라미터)에 달하는 것을 클라우드 환경에서 상당한 자원을 요구할 것이며, 엣지 디바이스에서는 실행 자체가 거의 불가능할 것이다. 이에 따라 메모리 사용량을 미리 분석하여 모델을 경량화하거나 최적화 기법을 적용해 배포할 수 있도록 만드는 것이 가장 중요하다고 생각한다. 따라서, 본 게시물에서는 LLM을 사용할 때, 메..

LLM 2025. 3. 22. 02:07

이전 Prev 1 Next 다음

목록2025/03/22 (1)

Attention, Please!!!

티스토리툴바