일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- E
- Mean squared error
- anomaly detection
- 오차역전파
- Non-Maximum Suppression
- Time Series
- multi-query
- rrf
- 손실함수
- LLaVA
- visual instruction tuning
- 컴퓨터비전
- pdf parsing
- leetcode
- 합성곱 신경망
- 활성화함수
- rag parsing
- 딥러닝
- rag-fusion
- 데이터 파싱
- 이상탐지
- nlp
- computer vision
- 시계열
- Cross Entropy Error
- segmentation
- 활성화 함수
- LLM
- deep learning
- 퍼셉트론
- Today
- Total
목록deep learning (2)
굴러가는 분석가의 일상
LLaVA : Large Language and Vision Assistant Paper | Github | Demo | Project Page 💡 Introduction 최근 GPT-4, Vicuna, FLAN-T5 등 다양한 거대 언어 모델(LLM, Large Language Model)에 대한 멀티모달 연구가 활발히 이루어지고 있으며, 성능이 점진적으로 발전하여 다양한 분야에서 활용되고 있습니다. 하지만 기존 멀티모달 테스크에서 이미지-텍스트 쌍의 데이터는 단순히 텍스트가 이미지에 대한 설명으로 이루어진 경우가 대부분입니다. 이러한 데이터를 사용할 경우 모델이 이미지를 단순히 설명하는 방식으로 주로 학습이 진행되기 때문에, 이미지에 대해 질의응답을 하고 대화를 하는데 한계가 있습니다.이에 논문..
본 게시물에서는 2023년도 Meta AI 연구진이 발표한 SA(Segment Anything) 이라는 모델에 대해 리뷰를 하고자 합니다. 💡 Background ChatGPT와 같은 대용량 언어 모델(LLM)은 strong zero-shot(이전 학습 내용을 기반으로 새로운 Task 및 데이터 예측) 및 few-shot(몇 개의 샘플을 통해 새로운 Task에 적용) 을 통해 NLP분야에서 새로운 패러다임을 이끌어 가고있습니다. 이러한 "Foundation Model"은 새로운 데이터 분포에서 다양한 Task를 수행할 수 있으며, 이를 기반으로 hand-crafted 입력을 즉각적으로 출력할 수 있는 Prompt Engineering이 가능하다는 것이 가장 큰 장점입니다. 컴퓨터 비전의 ..