일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- pdf parsing
- 오차역전파
- Time Series
- anomaly detection
- visual instruction tuning
- Mean squared error
- nlp
- computer vision
- LLaVA
- LLM
- multi-query
- 합성곱 신경망
- deep learning
- leetcode
- 퍼셉트론
- 이상탐지
- rag parsing
- 시계열
- 딥러닝
- 활성화 함수
- segmentation
- 데이터 파싱
- Cross Entropy Error
- E
- 활성화함수
- Non-Maximum Suppression
- 컴퓨터비전
- rag-fusion
- rrf
- 손실함수
- Today
- Total
목록전체 글 (46)
굴러가는 분석가의 일상
Enhanced Transformer with Rotary Position EmbeddingPaper | GitHub | Guide 💡 Introduction단어의 sequence order은 자연어 분야에서 큰 가치가 있습니다. RNN 기반의 모델은 각 시퀸스를 재귀적으로 처리하면서 이전 시퀸스에서 계산한 hidden state를 현재 시퀸스로 전달하여 연산을 진행하며, 이를 통해 토큰의 순서를 인코딩할 수 있게 됩니다. 또한, CNN 기반 모델 (Gehring et al.[2017])은 position-agonistic으로 고려되었지만, Islam et al.[2020]의 논문에 의해 padding operation이 암묵적으로 위치 정보를 학습할 수 있다고 주장하였습니다. Vaswani et ..
LLaVA : Large Language and Vision Assistant Paper | Github | Demo | Project Page 💡 Introduction 최근 GPT-4, Vicuna, FLAN-T5 등 다양한 거대 언어 모델(LLM, Large Language Model)에 대한 멀티모달 연구가 활발히 이루어지고 있으며, 성능이 점진적으로 발전하여 다양한 분야에서 활용되고 있습니다. 하지만 기존 멀티모달 테스크에서 이미지-텍스트 쌍의 데이터는 단순히 텍스트가 이미지에 대한 설명으로 이루어진 경우가 대부분입니다. 이러한 데이터를 사용할 경우 모델이 이미지를 단순히 설명하는 방식으로 주로 학습이 진행되기 때문에, 이미지에 대해 질의응답을 하고 대화를 하는데 한계가 있습니다.이에 논문..
본 게시물에서는 2023년도 Meta AI 연구진이 발표한 SA(Segment Anything) 이라는 모델에 대해 리뷰를 하고자 합니다. 💡 Background ChatGPT와 같은 대용량 언어 모델(LLM)은 strong zero-shot(이전 학습 내용을 기반으로 새로운 Task 및 데이터 예측) 및 few-shot(몇 개의 샘플을 통해 새로운 Task에 적용) 을 통해 NLP분야에서 새로운 패러다임을 이끌어 가고있습니다. 이러한 "Foundation Model"은 새로운 데이터 분포에서 다양한 Task를 수행할 수 있으며, 이를 기반으로 hand-crafted 입력을 즉각적으로 출력할 수 있는 Prompt Engineering이 가능하다는 것이 가장 큰 장점입니다. 컴퓨터 비전의 ..
※ 앞선 게시물에서는 합성곱 신경망(Convolutional Neural Networ)에 대해 알아보았습니다. CNN은 대체적으로 이미지 처리와 관련된 작업에 사용되지만, 이는 크게 3가지의 유형(이미지 분류, 객체 인식, 이미지 분할)으로 나뉘게 됩니다. 본 게시물에서는 객체인식에 사용되는 알고리즘에 대해 알아보도록 하겠습니다. 💡 객체 인식(Object Detection) 객체 인식(Object Detection)이란, 이미지 내의 객체나 장면 등을 분류하는데 그치지 않고, 해당 객체의 위치까지 표시하는 알고리즘을 말합니다. 객체 인식 알고리즘을 수행하기 위해서는 두 가지의 과정을 거치게 됩니다. 객체의 위치가 어디인지 Bounding Box로 나타내는 지역화(Localization)를 진행하고, 이..
💡 Non-Max Suppression이란, 입력 이미지에 Object Detection 알고리즘에 의해 bounding box regression이 적용되면, 아래의 그림과 같이 객체에 여러 개의 bboxr가 그려지며 물체의 확률 값을 가지게 됩니다. 여러 개의 bbox 중 가장 스코어가 높은 박스만 남기고 나머지를 제거하는 것이 Non-Maximum Suppression 이라고 합니다. 이를 통해 모델을 간결하게 하고 중북된 결과를 제거함으로써 정확한 객체 탐지를 수행할 수 있습니다. 📌 동작 원리 ① Object Detection 후보군 추출 : 객체탐지 모델을 사용하여 입력 이미지에서 객체 후보군을 추출합니다. 이에 각 후보 객체에 대한 추상적인 위치와 해당 객체가 어떤 클래스에 속하는지에 대한 ..
※ 본 게시물에서는 Object detection의 평가지표인 mAP(Mean Average Precision)에 대해 알아보도록 하겠습니다. mAP 평가지는 IoU와 Precision/Recall의 개념이 기반이 되기에, 함께 알아보도록 하겠습니다. 💡 IoU (Intersection over Union) 분류(Classification)문제 같은 경우, 단순히 예측/실제 Class가 일치하거나 불일치한 것을 구분하면 됩니다. 이러한 개념은 객체탐지에서 도 비슷하게 적용합니다. Ground Truth Bounding Box와 Predicted Bounding Box를 비교하여 모델의 성능을 비교하면 되지만, 이 두가지 값은 모델의 다양한 파라미터로 인하여 일치하는 경우가 거의 없기때문에, 쉽지가 않습니..
💡 Sliding Window & Regional Proposal Object Detection은 여러 객체에 대한 위치와 클래스를 분류하는데, 복잡한 Feature Map이 도출되기에 객체를 분류하는데 어려움이 있습니다. 그럼 Feature Map를 간단하게 만들기 위해서는 어떻게 해야할까요? 생각보다 단순합니다. 입력 데이터를 일정한 크기의 간격으로 나누고, 각각의 나눈 영역에서 객체를 찾는다면 해결할 수 있습니다. 이러한 방식을 Sliding Window라고 합니다. 즉, Sliding Window는 일정 크기의 Window(노란색 상자)를 왼쪽에서 오른쪽으로 움직이면서, 각각의 Window 내의 Feature Map를 도출하여 객체를 인식하는 방식입니다. 그렇다면 만약 일정 크기의 Window..
※ 앞선 게시물에서는 Image Classifcation에 대해 알아보았습니다. CNN은 대체적으로 이미지 처리와 관련된 작업에 사용되지만, 이는 크게 3가지의 유형(이미지 분류, 객체 탐지, 이미지 분할)으로 나뉘게 됩니다. 본 게시물에서는 객체 탐지 개념에 대해 알아보도록 하겠습니다. 💡 Object Detection 개념 객체인식(Object Detection)을 알아보기전에, 분류(Classification)와 지역화(Localization)에 대해서 먼저 알아보도록 하겠습니다. 고양이 이미지가 입력으로 들어올 때, 이미지 안의 다중 클래스가 어떤 class에 속하는지 정하는 것이 ①분류(Classification)라고 칭합니다. 분류(Classification) 같은 경우, 저희가 흔히 아..
※ 앞선 게시물에서는 합성곱 신경망(Convolutional Neural Networ)에 대해 알아보았습니다. CNN은 대체적으로 이미지 처리와 관련된 작업에 사용되지만, 이는 크게 3가지의 유형(이미지 분류, 객체 인식, 이미지 분할)으로 나뉘게 됩니다. 본 게시물에서는 이미지 분류에 사용되는 알고리즘과 구현 방법에 대해 알아보도록 하겠습니다. 💡 이미지 분류(Image Classifcation) Image Classification는 이미지 내의 객체나 장면 등을 분류하는데 사용되는 알고리즘입니다. 예를 들어, 강아지와 고양이 사진이 주어졌을 때, 각각을 고양이와 강아지로 분류하는 것이 가장 일반적인 예입니다. 그렇다면 이미지 분류에 주로 사용되는 합성곱 신경망의 유형을 알아보도록 하겠습니다. 📌 L..
※ 본 게시물은 Selenium 라이브러리를 활용하여 이미지 웹크롤링하는 방법에 대해 다룹니다. 📌 Import Library#pip install selenium (라이브러리 다운로드) from selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import K..