Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 손실함수
- rrf
- 이상탐지
- visual instruction tuning
- LLaVA
- 활성화 함수
- 오차역전파
- 활성화함수
- Time Series
- anomaly detection
- fine tuning
- multi-query
- qlora
- rag parsing
- LLM
- 데이터 파싱
- Cross Entropy Error
- Mean squared error
- pdf parsing
- 파인튜닝
- leetcode
- 합성곱 신경망
- 딥러닝
- deep learning
- Non-Maximum Suppression
- bf16
- rag-fusion
- fp16
- gemma3
- fp32
Archives
- Today
- Total
목록2025/06/23 (1)
Attention, Please!!!
Pytorch의 Buffer를 사용해야 하는 이유 via. Attention
대형 언어 모델(LLM)을 처음부터 구축하거나 혹은 복잡한 딥러닝 모델을 다룰 때, 필연적으로 GPU를 활용하는 경우가 대부분이다. 이에 따라 Pytorch에서는 .to(device) 라는 간편한 메서드를 통해 모델의 파라미터를 원하는 장치(CPU 혹은 GPU)로 손쉽게 옮길 수 있는 기능을 제공한다. 하지만 모델을 GPU로 옮겼다고 생각했는데, 막상 실행 했을 때 " Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!" 와 같은 RuntimeError를 마주하게 된다. 이러한 문제는 모델의 파라미터(nn.Parameter)외에, 학습되지는 않지만 모델의 동작에 필수적인 텐서가 GPU로 ..
LLM
2025. 6. 23. 19:02