Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
Tags
- Time Series
- 활성화함수
- rag-fusion
- fine tuning
- rrf
- 활성화 함수
- Non-Maximum Suppression
- fp32
- 딥러닝
- anomaly detection
- fp16
- pdf parsing
- 오차역전파
- LLM
- bf16
- 파인튜닝
- multi-query
- Mean squared error
- 이상탐지
- 데이터 파싱
- 합성곱 신경망
- LLaVA
- gemma3
- deep learning
- visual instruction tuning
- Cross Entropy Error
- LLM 패러다임
- rag parsing
- qlora
- Nested Learning
Archives
- Today
- Total
목록visual instruction tuning (1)
Attention, Please!!!
[논문리뷰] Visual Instruction Tuning (LLaVA)
LLaVA : Large Language and Vision Assistant Paper | Github | Demo | Project Page 💡 Introduction 최근 GPT-4, Vicuna, FLAN-T5 등 다양한 거대 언어 모델(LLM, Large Language Model)에 대한 멀티모달 연구가 활발히 이루어지고 있으며, 성능이 점진적으로 발전하여 다양한 분야에서 활용되고 있습니다. 하지만 기존 멀티모달 테스크에서 이미지-텍스트 쌍의 데이터는 단순히 텍스트가 이미지에 대한 설명으로 이루어진 경우가 대부분입니다. 이러한 데이터를 사용할 경우 모델이 이미지를 단순히 설명하는 방식으로 주로 학습이 진행되기 때문에, 이미지에 대해 질의응답을 하고 대화를 하는데 한계가 있습니다.이에 논문..
논문리뷰
2024. 4. 28. 17:31