일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 이상탐지
- 파인튜닝
- 딥러닝
- multi-query
- pdf parsing
- 퍼셉트론
- 활성화 함수
- Mean squared error
- 오차역전파
- visual instruction tuning
- 손실함수
- 데이터 파싱
- leetcode
- 시계열
- rrf
- anomaly detection
- qlora
- nlp
- Time Series
- LLaVA
- deep learning
- Non-Maximum Suppression
- gemma3
- Cross Entropy Error
- 활성화함수
- LLM
- rag parsing
- fine tuning
- rag-fusion
- 합성곱 신경망
- Today
- Total
목록2025/03 (3)
Attention, Please!!!
2025년 3월 중 구글은 Gemma 모델 시리즈의 업데이트 버전인 Gemma 3를 발표하였다. 이 모델은 비슷한 파라미터를 가진 다른 오픈 소스 모델들에 비해 강력한 성능을 보여주며, 100B 파라미터 미만의 오픈 LLM 중 가장 뛰어난 능력을 갖춘 Gemma 3의 27B 모델이 있다. 이를 달성하기 위해 구글은 정확도와 효율성을 모두 개선할 수 있는 새로운 아키텍처를 개발하였으며, Gemma 3는 기본적으로 멀티모달 기능을 지원하여 텍스트와 이미지 입력을 모두 처리할 수 있다는 아주 강력한 장점이 있는 모델이다. 더 나아가 Gemma 3 모델은 "single-accelerator model"을 기반으로 설계 되었으며, LMAreana 리더보드에서 Chatbot Arena Elo Score 평가에서..
대규모 언어 모델의 개발과 활용이 점점 더 보편화되면서, 모델의 효율성을 극대화하는 것이 핵심 과제로 떠오르고 있는 추세이다. 특히 추론 단계에서 메모리 사용량을 정확하게 추정하여, 배포하고 운영하는 것은 서비스 측면에서 가장 필수적인 요소이다. 모델의 성능이 아무리 뛰어나도 배포 환경에서 실행되지 않는다면 무용지물이다. DeepSeek-R1 모델은 685B 파라미터 (즉, 6850억 개의 파라미터)에 달하는 것을 클라우드 환경에서 상당한 자원을 요구할 것이며, 엣지 디바이스에서는 실행 자체가 거의 불가능할 것이다. 이에 따라 메모리 사용량을 미리 분석하여 모델을 경량화하거나 최적화 기법을 적용해 배포할 수 있도록 만드는 것이 가장 중요하다고 생각한다. 따라서, 본 게시물에서는 LLM을 사용할 때, 메..
DeepSeek R1 모델이 출시된 이후, 이를 동일하게 구현하기 위해 다양한 연구 혹은 실험이 진행되고 있다. R1 모델이 open-source로 배포가 되면서 LLM 시장에서 큰 파급효과를 불러 일으켰다. 현재 R1 모델을 통해 생성된 데이터 셋이 많이 구축되고 있어, 이를 활용해 다른 모델들이 유사한 방식으로 "생각"할 수 있도록 훈련시킬 수 있는 가능성이 극대화 되고 있다. 이러한 데이터 셋을 활용하면 기존 LLM을 R1의 추론 능력에 맞춰 모방하도록 Fine-tuning 하는 작업이 비교적 수월해진다. 본 게시물에서는 커뮤니티에서 만든 R1 데이터 셋을 활용하여 LLM의 성능을 높이기 위한 Fine-Tuning with Adapter에 대해 알아보도록 하고자 한다. DeepSeek-R1에서 ..