일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- leetcode
- segmentation
- LLaVA
- 컴퓨터비전
- computer vision
- 딥러닝
- Time Series
- deep learning
- 활성화 함수
- 데이터 파싱
- 이상탐지
- 활성화함수
- CNN
- LLM
- 시계열
- Mean squared error
- rag parsing
- pdf parsing
- Non-Maximum Suppression
- E
- visual instruction tuning
- Cross Entropy Error
- 합성곱 신경망
- 퍼셉트론
- 오차역전파
- 머신러닝
- nlp
- anomaly detection
- 손실함수
- Today
- Total
목록분류 전체보기 (42)
굴러가는 분석가의 일상
본 게시물은 Florian June의 게시물을 참고하였습니다.💡 PARSING 이란? AI를 연구하는 사람들은 일반적으로 특정 문제를 해결하기 위해 모델링을 수행하지만, 이러한 모델링의 성능은 데이터의 질과 양에 크게 좌우된다. 데이터의 품질이 높을수록 모델의 예측 정확도와 응답의 신뢰성이 높아지며, 반대로 데이터가 부정확하거나 부족하면 원하는 결과를 얻는건 불가능하다. 따라서 많은 연구자와 개발자들은 데이터를 수집하고 전처리하는 데 상당한 시간과 자원을 투자합니다. RAG도 이와 마찬가지로 데이터의 중요성이 크게 부각이 된다. RAG를 효과적으로 적용하려면, 용도에 적합한 데이터를 수집하고, 이를 체계적으로 파싱(parsing) 및 구조화 하는 것이 상당히 중요하다. 이러한 작업은 단순히 데이터를 모..
RAPTOR: Recursive Abstractive Processing for Tree-Organized RetrievalPaper | GitHub | Overview 💡 Naive RAG의 문제점 위의 그림은 Naive RAG의 전반적인 흐름을 나타낸다. 즉, 사용자가 질문을 하게 되면, 질문과 비슷한 상위 k개의 정보들을 추출하여, 답변을 생성하는 것이다. 만약 K 값이 5라고 가정해보자. 그럼 과연 추출된 5 가지의 단락(정보)을 가지고 문서의 전체적인 컨텍스트를 이해할 수 있을까? 조금 더 직관적인 예시를 통해 알아보도록 하겠다. 만약 신데렐라의 동화에서 "신데렐라가 어떻게 행복한 결말을 맞이했는가"? 라는 질문을 던졌을 때, 사용자가 원하는 보편적인 답변은 전체적으로 신데렐라가 어떠한 과정..
오픈AI의 GPT 시리즈, Meta의 LLama 시리즈, Google의 Gemini와 같은 대형 언어 모델(LLM)은 생성 AI분야에서 큰 성과를 이루게 되었다. 하지만 위와 같은 모델들의 문제점은 종종 부정확하거나 관련 없는 정보를 생성하며, 오래된 정보에 의존하고, decision-making 과정이 투명하지 않아 블랙박스 추론을 초래하게 된다. Retrieval-Augmented Geneartion(RAG)는 외부 지식 소스로부터 추가적인 정보를 통합하여 대형 언어 모델(LLM)을 개선하는 과정이다. 이를 통해 LLM은 더 정확하고 문맥을 고려할 수 있는 답변을 생성하며, 환각(hallucination)을 방지할 수 있게 되었다. 이러한 장점을 가진 RAG는 2023년 이후 LLM 기반 시스템에서..
Retreival Augmented Generation(RAG)는 2020년에 사전 학습된 Generator과 Retriever를 결합한 end-to-end 방식으로 처음 제안되었다. 당시 주요 목표는 모델 fine-tuning을 통해 성능을 대폭 향상시키는 것이었다. 2022년 12월 ChatGPT가 출시됨에 따라 RAG라는 방법론이 수면위로 오르게 되었다. RAG는 외부 지식을 활용하여 대규모 언어 모델(LLM)의 추론 능력을 leveraging하면서 더 좋은 generation results를 얻는데 중점을 두었으며, 대규모 모델을 재학습 시키는 필요성을 줄어들게 만들었다. 이에 이 글에서는 RAG의 개념과 목적, 특성에 대해 간략하게 짚어보고자 한다. 💡 Retreival-Augemented ..
✔️손실함수(Loss Function) 역방향 과정의 손실함수는 Negative Log-Likelihood (\(-\log \left(p_{\theta }\left(x_{0}\right)\right)\)) 으로 정의할 수 있다. 하지만 이를 직접 최적화하려면, 각 시간 단계 t에서의 모든 상태 \(x_{t}\)를 추적하고 계산해야 하기 때문에 메모리와 계산 자원 측면에서 매우 비효율적이다. 이러한 문제점을 해결하기 위해 변분 추론(Variational Lower Bound)을 사용한다. 직접적으로 Negative Log-Likelihood 사용하는 대신, 최적화할 수 있는 비음수 값(KL Divergence)을 더하게 된다. 그럼 아래 수식의 오른쪽 항은 항상 왼쪽 항보다 크거나 같게 된다. 오른쪽 항을..
💡 Diffusion Model 이란? 2015년도에 “Deep Unsupervised Learning using Nonequilibrium Thermodynamics”이라는 논문으로 Diffusion Model이 처음으로 등장하였습니다. 본 논문의 저자들은 Diffusion Model를 다음과 같이 설명하였습니다. The essential idea, inspired by non-equilibrium statistical physics, is to systematically and slowly destroy structure in a data distribution through an iterative forward diffusion process. We then learn a reverse diffu..
Enhanced Transformer with Rotary Position EmbeddingPaper | GitHub | Guide 💡 Introduction단어의 sequence order은 자연어 분야에서 큰 가치가 있습니다. RNN 기반의 모델은 각 시퀸스를 재귀적으로 처리하면서 이전 시퀸스에서 계산한 hidden state를 현재 시퀸스로 전달하여 연산을 진행하며, 이를 통해 토큰의 순서를 인코딩할 수 있게 됩니다. 또한, CNN 기반 모델 (Gehring et al.[2017])은 position-agonistic으로 고려되었지만, Islam et al.[2020]의 논문에 의해 padding operation이 암묵적으로 위치 정보를 학습할 수 있다고 주장하였습니다. Vaswani et ..
LLaVA : Large Language and Vision Assistant Paper | Github | Demo | Project Page 💡 Introduction 최근 GPT-4, Vicuna, FLAN-T5 등 다양한 거대 언어 모델(LLM, Large Language Model)에 대한 멀티모달 연구가 활발히 이루어지고 있으며, 성능이 점진적으로 발전하여 다양한 분야에서 활용되고 있습니다. 하지만 기존 멀티모달 테스크에서 이미지-텍스트 쌍의 데이터는 단순히 텍스트가 이미지에 대한 설명으로 이루어진 경우가 대부분입니다. 이러한 데이터를 사용할 경우 모델이 이미지를 단순히 설명하는 방식으로 주로 학습이 진행되기 때문에, 이미지에 대해 질의응답을 하고 대화를 하는데 한계가 있습니다.이에 논문..
본 게시물에서는 2023년도 Meta AI 연구진이 발표한 SA(Segment Anything) 이라는 모델에 대해 리뷰를 하고자 합니다. 💡 Background ChatGPT와 같은 대용량 언어 모델(LLM)은 strong zero-shot(이전 학습 내용을 기반으로 새로운 Task 및 데이터 예측) 및 few-shot(몇 개의 샘플을 통해 새로운 Task에 적용) 을 통해 NLP분야에서 새로운 패러다임을 이끌어 가고있습니다. 이러한 "Foundation Model"은 새로운 데이터 분포에서 다양한 Task를 수행할 수 있으며, 이를 기반으로 hand-crafted 입력을 즉각적으로 출력할 수 있는 Prompt Engineering이 가능하다는 것이 가장 큰 장점입니다. 컴퓨터 비전의 ..
※ 앞선 게시물에서는 합성곱 신경망(Convolutional Neural Networ)에 대해 알아보았습니다. CNN은 대체적으로 이미지 처리와 관련된 작업에 사용되지만, 이는 크게 3가지의 유형(이미지 분류, 객체 인식, 이미지 분할)으로 나뉘게 됩니다. 본 게시물에서는 객체인식에 사용되는 알고리즘에 대해 알아보도록 하겠습니다. 💡 객체 인식(Object Detection) 객체 인식(Object Detection)이란, 이미지 내의 객체나 장면 등을 분류하는데 그치지 않고, 해당 객체의 위치까지 표시하는 알고리즘을 말합니다. 객체 인식 알고리즘을 수행하기 위해서는 두 가지의 과정을 거치게 됩니다. 객체의 위치가 어디인지 Bounding Box로 나타내는 지역화(Localization)를 진행하고, 이..