Attention, Please!!!

Attention, Please!!! https://g3lu.tistory.com/ LLM의 주목을 끄는 공간 ko Sun, 12 Jul 2026 16:06:19 +0900 TISTORY 100 G3LU Attention, Please!!! https://tistory1.daumcdn.net/tistory/6605200/attach/2b6afc430a7c4712b84d3dcff6b393b2 https://g3lu.tistory.com [논문 리뷰] Nested Learning 부셔버리기 (Feat. 선행성 기억상실증) https://g3lu.tistory.com/66 최근 소개된 다양한 LLM은 층을 깊게 쌓아 representation과 capacity를 늘림으로써 일반적인 성능을 향상해왔다. 하지만 이러한 깊은 구조가 모든 문제, 특히 스도쿠와 같이 복잡한 알고리즘적 사고가 필수적인 Task에 적합하지 않았으며, 오히려 모델의 깊이나 너비를 늘려도 특정 파라미터 클래스의 용량은 한계적으로만 개선될 수 있다는 연구 결과가 존재한다. 현재의 LLM은 사전 학습이 끝나고 배포되는 순간부터 Static한 파라미터를 가지.. 논문리뷰 AI LLM LLM 패러다임 Nested Learning G3LU https://g3lu.tistory.com/66 https://g3lu.tistory.com/66#entry66comment Thu, 4 Dec 2025 03:42:54 +0900 토크나이저 학습하여 Vocabulary Size 획기적으로 줄이기 (Feat. Continued Pre-training) https://g3lu.tistory.com/65 최신 언어 모델들은 다양한 문자 체계를 포괄하기 위해서 Token Vocabulary의 수를 기하급수적으로 크게 만들고 있는 추세이다. 어느정도 인지도가 있는 모델들은 보통 대략 10만 개의 token을 포함하고 있다. 이처럼 어휘 사전에 완성된 형태의 단어 토큰이 많으면 많을수록, 모델은 문장을 더 짧고 효율적인 토큰 시퀸스 형태로 처리를 할 수 있게 된다. 그런데, 모델은 다음 단어를 예측할 때마다 사용하지 않을 모든 단어의 확률 점수를 일일이 다 .. LLM G3LU https://g3lu.tistory.com/65 https://g3lu.tistory.com/65#entry65comment Sat, 15 Nov 2025 14:39:36 +0900 GPT-OSS의 기술적 변화 https://g3lu.tistory.com/64 2025년 8월 7일 기준으로 OpenAI의 open-weight 모델인 gpt-oss가 공개되었다. 이는 2019년도에 출시되었던 OpenAI의 초창기 모델인 GPT-2 이후로 공개된 모델이다. 이에 따라 본 게시물에서는 GPT-2 모델과 GPT-oss 모델 간의 차이를 깊숙하게 알아보고자 하며, 현재 출시되고 있는 대부분의 모델들의 공통점에 대해 다뤄보고자 한다. 본 게시물은 Sebastian Raschka 님의 게시물을 참고하여 작성하였음을 알립니.. LLM G3LU https://g3lu.tistory.com/64 https://g3lu.tistory.com/64#entry64comment Thu, 2 Oct 2025 03:26:35 +0900 vLLM이 도대체 뭘까? (via. PagedAttention) https://g3lu.tistory.com/63 대규모 언어 모델이 다양한 분야에서 활용되면서, 학습된 모델을 실제 서비스에서 효율적으로 운영할 수 있는 추론하는 방법이 그 어느 때보다 중요해지고 있다. 무지막지한 성능의 LLM을 개발하는 것만큼이나, 이를 빠르고 비용적인 측면에서 효율적으로 사용하는 것이 어찌보면 핵심적이다. 이러한 LLM 추론 환경의 중심에는 vLLM과 Ollama라는 두 개의 강력한 오픈소스가 존재한다. 하지만, 둘 간의 지향하는 목표가 근본적으로 다르다. vLLM은 서버 환경에.. LLM G3LU https://g3lu.tistory.com/63 https://g3lu.tistory.com/63#entry63comment Sun, 3 Aug 2025 20:59:57 +0900 Contrastive Learning을 통한 임베딩 모델의 성능 극한으로 끌어올리기 https://g3lu.tistory.com/62 LLM에서 임베딩은 텍스트의 의미를 수치적으로 얼마나 잘 표현하는지에 따라 모델의 언어 이해 및 생성 능력을 결정짓는 핵심적인 요소이다. Next Token Prediction 기반의 Causal Masking 기법을 사용하는 모델이든, 문장 전체를 한 번에 보고 특정 단어의 의미를 그 단어의 앞과 뒤에 있는 모든 단어를 동시에 참고하는 Masked Language Model이 있다. 전반적으로 LLM 시장을 아우르는 두 개의 모델은 단어나 문맥의 미묘.. LLM/RAG G3LU https://g3lu.tistory.com/62 https://g3lu.tistory.com/62#entry62comment Sat, 26 Jul 2025 16:58:09 +0900 LLAMA3.1 임베딩 모델로 변환하기 via. LLM2VEC https://g3lu.tistory.com/61 Retrieval-Augmented Generation (RAG)는 대규모 언어 모델이 가진 환각 (Hallucination) 현상을 완화하고, 최신 정보나 특정 도메인의 지식을 기반으로 정확하고 신뢰성 높은 답변을 생성할 수 있게 돕는 강력한 프레임워크이다. 이러한 RAG의 성능을 좌우하는 가장 중요한 구성 요소 중 하나가 바로 임베딩 모델이라고 해도 무방하다. 임베딩 모델은 RAG 프레임워크에서 심장과 비슷한 역할을 수행하며, 전체 시스템의 효율성과.. LLM/RAG G3LU https://g3lu.tistory.com/61 https://g3lu.tistory.com/61#entry61comment Sun, 13 Jul 2025 00:36:40 +0900 Padding-Free 및 Packing: 빠르고 효율적으로 LLM 파인튜닝 하기 https://g3lu.tistory.com/60 Padding Token은 입력 시퀸스의 길이를 맞추기 위해 추가되는 특수 토큰이다. 트랜스포머 모델은 병렬적으로 모든 토큰을 처리하기 때문에, 입력 시퀸스의 길이가 동일해야한다. 이에  가장 많이 사용되지만, 메모리와 계산량 측면에서 상당한 낭비를 초래한다. 이에 최근에는 Packing으로 시퀸스의 활용도를 극대화하고, 계산 비용을 최소화할 수 있는 Packing이 제안되였다. 하지만, 종종 Packing을 기반으로 파인튜닝하는 게시물 혹은 .. LLM G3LU https://g3lu.tistory.com/60 https://g3lu.tistory.com/60#entry60comment Thu, 26 Jun 2025 23:57:58 +0900 Pytorch의 Buffer를 사용해야 하는 이유 via. Attention https://g3lu.tistory.com/59 대형 언어 모델(LLM)을 처음부터 구축하거나 혹은 복잡한 딥러닝 모델을 다룰 때, 필연적으로 GPU를 활용하는 경우가 대부분이다. 이에 따라 Pytorch에서는 .to(device) 라는 간편한 메서드를 통해 모델의 파라미터를 원하는 장치(CPU 혹은 GPU)로 손쉽게 옮길 수 있는 기능을 제공한다. 하지만 모델을 GPU로 옮겼다고 생각했는데, 막상 실행 했을 때 " Expected all tensors to be on the same device, .. LLM G3LU https://g3lu.tistory.com/59 https://g3lu.tistory.com/59#entry59comment Mon, 23 Jun 2025 19:02:58 +0900 [논문 리뷰] Are Reasoning Models More Prone to Hallucinations? https://g3lu.tistory.com/58 Are Reasoning Models More Prone to Hallucination?   Are Reasoning Models More Prone to Hallucination? Recently evolved large reasoning models (LRMs) show powerful performance in solving complex tasks with long chain-of-thought (CoT) reasoning capab.. 논문리뷰 G3LU https://g3lu.tistory.com/58 https://g3lu.tistory.com/58#entry58comment Sat, 7 Jun 2025 22:15:15 +0900 [논문 리뷰] GQA 기반으로 학습된 LLM에 Multi-Head Latent Attention 적용해보기 https://g3lu.tistory.com/57   이전 게시물에서 간단하게 Multi-Head Latent Attention에 대해 알아보았으며, 본 게시물에서는 "TransMLA: Multi-Head Latent Attention Is All You Need" 이라는 논문을 통해 Grouped Query Attention (GQA)를 기반으로 학습된 대형 언어 모델에 MLA를 어떻게 적용할 수 있는지에 대해서 알아보고자 합니다. Multi-Head Latention Attention에 대.. 논문리뷰 G3LU https://g3lu.tistory.com/57 https://g3lu.tistory.com/57#entry57comment Fri, 6 Jun 2025 00:53:13 +0900 "Attention Is All You Need" 의 대항마 : Multi-Head Latent Attention https://g3lu.tistory.com/56 대규모 언어 모델(LLM)의 Self-Attention 메커니즘은 모델의 성능을 좌우하는 가장 핵심적인 요소로, 문맥을 전역적으로 이해하고 복잡한 언어의 패턴을 학습하는 데 필수적이다. 그러나, Multi-Head Attention(이하 MHA)은 높은 계산 비용과 메모리 사용량으로 인해 대규모 모델의 효율적인 학습과 추론에 제약적이다. 이를 해결하기 위해 제안된 Grouped-Query Attention(이하 GQA)가 제안되었으며, 이는 쿼리 헤드를.. LLM G3LU https://g3lu.tistory.com/56 https://g3lu.tistory.com/56#entry56comment Sat, 31 May 2025 19:27:53 +0900 거대 언어 모델 : BF16, FP16, FP32에 따른 추론 성능 알아보기 https://g3lu.tistory.com/55 초기 대형 언어 모델들은 대체적으로 float32 데이터 유형을 통해 훈련하고 배포된다. 하지만 float32는 각 파라미터가 32비트 (즉, 4바이트)를 차지하기 때문에, LLaMA 3와 같은 700 억 개 파라미터를 가진 모델의 경우 필요한 메모리의 소비량이 대략 280GB에 달한다. 이 엄청난 메모리 사용량은 대규모 모델의 배포와 운영적인 측면에서 어려움을 겪고 있다. 이에 이러한 문제를 해결하기 위해 LLM 개발자들은 메모리 소비를 절반으로 줄일.. LLM bf16 fp16 fp32 LLM Precision G3LU https://g3lu.tistory.com/55 https://g3lu.tistory.com/55#entry55comment Sat, 3 May 2025 18:27:40 +0900 과연, Perplexity를 기반으로 LLM을 평가하는 것이 합리적일까? https://g3lu.tistory.com/54 요즘 여러 모델들을 다뤄보고 LLM 관련 논문을 읽어보면서, 문득 이런 생각이 들었다. "과연, Perplexity를 기반으로 LLM을 평가하는 것이 합리적일까?" 물론 Perplexity는 언어 모델들의 주요 평가 지표 중 하나로 가장 많이 사용되고 있다. 이를 통해 모델이 주어진 토큰 시퀀스를 얼마나 잘 예측하는지를 측정하게 되며, 학습 중에 모델의 목표는 이 값을 최소화하는 것이다. 따라서 Perplexity가 낮을수록 모델이 더 좋은 성능을 발휘.. LLM G3LU https://g3lu.tistory.com/54 https://g3lu.tistory.com/54#entry54comment Wed, 9 Apr 2025 00:11:57 +0900 Gemma 3 모델 파인튜닝(LoRa and QLoRA) 해보기 https://g3lu.tistory.com/53 Gemma 3 모델을 완전하게 파인튜닝하려면 80GB VRAM을 지원하는 고성능 GPU가 필요하다. 그러나 LoRA를 기반으로 파인튜닝할 경우, 1B 및 4B 모델은 24GB VRAM이 요구되며, 27B 모델은 54GB VRAM이 필요하다. 다만, 27B 모델을 4비트로 양자화하면 24GB VRAM에서도 파인튜닝이 가능하지만, 시퀀스 길이가 제한되며 임베딩을 재학습할 수 없다는 단점이 있다. 이로 인해 chat template 사용 시 문제가 발생할 수.. LLM/Fine-tuning G3LU https://g3lu.tistory.com/53 https://g3lu.tistory.com/53#entry53comment Tue, 1 Apr 2025 19:46:29 +0900 Google의 새로운 대항마 Gemma 3 모델 리뷰 https://g3lu.tistory.com/52     2025년 3월 중 구글은 Gemma 모델 시리즈의 업데이트 버전인 Gemma 3를 발표하였다. 이 모델은 비슷한 파라미터를 가진 다른 오픈 소스 모델들에 비해 강력한 성능을 보여주며, 100B 파라미터 미만의 오픈 LLM 중 가장 뛰어난 능력을 갖춘 Gemma 3의 27B 모델이 있다. 이를 달성하기 위해 구글은 정확도와 효율성을 모두 개선할 수 있는 새로운 아키텍처를 개발하였으며, Gemma 3는 기본적으로 멀티모달 기능을.. LLM fine tuning gemma3 google qlora 파인튜닝 G3LU https://g3lu.tistory.com/52 https://g3lu.tistory.com/52#entry52comment Mon, 31 Mar 2025 01:24:58 +0900 LLM 추론 시 GPU 메모리 사용량 알아보기 https://g3lu.tistory.com/51 대규모 언어 모델의 개발과 활용이 점점 더 보편화되면서, 모델의 효율성을 극대화하는 것이 핵심 과제로 떠오르고 있는 추세이다. 특히 추론 단계에서 메모리 사용량을 정확하게 추정하여, 배포하고 운영하는 것은 서비스 측면에서 가장 필수적인 요소이다. 모델의 성능이 아무리 뛰어나도 배포 환경에서 실행되지 않는다면 무용지물이다. DeepSeek-R1 모델은 685B 파라미터 (즉, 6850억 개의 파라미터)에 달하는 것을 클라우드 환경에서 상당한 자원을 요구할.. LLM G3LU https://g3lu.tistory.com/51 https://g3lu.tistory.com/51#entry51comment Sat, 22 Mar 2025 02:07:54 +0900 DeepSeek-R1 처럼 "생각"하도록 LLAMA 3.2 파인튜닝 하기 https://g3lu.tistory.com/50 DeepSeek R1 모델이 출시된 이후, 이를 동일하게 구현하기 위해 다양한 연구 혹은 실험이 진행되고 있다. R1 모델이 open-source로 배포가 되면서 LLM 시장에서 큰 파급효과를 불러 일으켰다. 현재 R1 모델을 통해 생성된 데이터 셋이 많이 구축되고 있어, 이를 활용해 다른 모델들이 유사한 방식으로 "생각"할 수 있도록 훈련시킬 수 있는 가능성이 극대화 되고 있다.     이러한 데이터 셋을 활용하면 기존 LL.. LLM/Fine-tuning G3LU https://g3lu.tistory.com/50 https://g3lu.tistory.com/50#entry50comment Sat, 8 Mar 2025 20:30:42 +0900 Reasoning 기반 LLM 저렴하게 Fine-Tuning 하는 방법 https://g3lu.tistory.com/49 대형 언어 모델(LLM)의 Reasoning 관점에 대한 연구가 최근 AI 분야에서 가장 뜨거운 주제 중 하나로 떠오르고 있는 것 같다. 이에 대해 간단하게 먼저 알아보겠다.  프롬프트 기반 추론 향상: 최근 연구에 따르면, "Chain of Thought" 같은 프롬프트 기술을 통해 LLM이 단계별로 문제를 풀도록 유도하고 있다. 예를 들어, 복잡한 수학 문제를 풀 때 모델이 중간에 직접적으로 개입하여 스스로 답변을 개선하는 방식으로 최종 .. LLM/Fine-tuning G3LU https://g3lu.tistory.com/49 https://g3lu.tistory.com/49#entry49comment Wed, 26 Feb 2025 11:34:10 +0900 사용자의 질문을 여러 개 만드는 기법 : Query Translation (Part 1) https://g3lu.tistory.com/48 본 게시물은 Lance Martin 님의 유튜브 영상을 기반으로 작성되었습니다.  사용자가 작성한 질문이 모호하거나 구체적으로 구조화되지 않을 경우, 문서에서 의미적 유사성을 기준으로 검색하는 과정에서 원하는 정보를 찾지 못하게 되는 경우가 존재한다. 이러한 문제를 해결하기 위해 사용자의 질문을 다양한 관점에서 재작성하거나 다른 표현으로 변환하여, 원래 질문의 의미를 보존하면서도 문서와의 내용과의 매칭 가능성을 높이는 것을 의미하는 것을 Que.. LLM/RAG multi-query rag-fusion rrf G3LU https://g3lu.tistory.com/48 https://g3lu.tistory.com/48#entry48comment Tue, 28 Jan 2025 01:51:29 +0900 딥러닝 모델을 통한 PDF Parsing 기법 https://g3lu.tistory.com/47 본 게시물은 Florian June님의 게시물을 참고하였습니다.    PDF 파일과 스캔된 이미지를 인공지능에 활용하기 위해 구조화(Structured)되거나 반구조화(Semi-Structured)된 형식으로 변환하는 것은 매우 중요한 작업 중 하나이다. 하지만 PDF 파일은 텍스트나 이미지를 문서 내의 정확한 위치에 배치하기 위해 좌표 기반 렌더링(Coordinate-Based Rendering)을 사용하기 때문에 좌표 정보와 이에 .. LLM/RAG G3LU https://g3lu.tistory.com/47 https://g3lu.tistory.com/47#entry47comment Wed, 22 Jan 2025 01:28:33 +0900 [선형대수] MIT 18.06 - Geometry of Linear Equation https://g3lu.tistory.com/46   본 게시물은 Gilbert Strang 교수님의 강의를 기반으로 작성되었습니다.      선형대수학의 근본적인 문제는 연립선형방정식을 푸는 것이다. 연립방정식은 여러 개의 선형방정식으로 이루어진 방정식의 집합이라고 표현할 수 있다. 각 방정식은 미지수들이 선형적인 형태로 나타나는 것이 특징이며, 이 방정식을 한 번에 풀어 여러 미지수의 값을 찾는 것이 가장 큰 목표이다.    연립선형방정식은 일.. Mathematics/Linear Algebra G3LU https://g3lu.tistory.com/46 https://g3lu.tistory.com/46#entry46comment Sat, 18 Jan 2025 21:34:24 +0900 자연어 처리에서 선형대수가 필요한 이유 https://g3lu.tistory.com/45 자연어처리에 대해 여러 논문을 읽고 공부하고 있지만, 대학교 때 배운 교과목 중 가장 중요하다고 판단되는 것은 단연 선형대수학이다. 2017년 발표된 "Attention is All You Need" 논문에서 소개된 Attention 메커니즘과 Softmax 연산만 보아도 선형대수학의 중요성을 쉽게 느낄 수 있다. Attention 메커니즘은 벡터와 행렬의 곱셈, 내적 연산, 그리고 확률 분포 계산과 같은 수학적 원리를 기반으로 동작하며, Softmax.. Mathematics/Linear Algebra G3LU https://g3lu.tistory.com/45 https://g3lu.tistory.com/45#entry45comment Sat, 18 Jan 2025 19:39:54 +0900 RAG 성능을 좌지우지 하는 PARSING(파싱)의 한계점 https://g3lu.tistory.com/44 본 게시물은 Florian June의 게시물을 참고하였습니다.  PARSING 이란?  AI를 연구하는 사람들은 일반적으로 특정 문제를 해결하기 위해 모델링을 수행하지만, 이러한 모델링의 성능은 데이터의 질과 양에 크게 좌우된다. 데이터의 품질이 높을수록 모델의 예측 정확도와 응답의 신뢰성이 높아지며, 반대로 데이터가 부정확하거나 부족하면 원하는 결과를 얻는건 불가능하다. 따라서 많은 연구자와 개발자들은 데이터를 수집하고 전처리하는 .. LLM/RAG pdf parsing rag parsing 데이터 파싱 G3LU https://g3lu.tistory.com/44 https://g3lu.tistory.com/44#entry44comment Sat, 16 Nov 2024 22:45:40 +0900 [논문리뷰] RAPTOR (장문의 문서에 적합한 RAG) https://g3lu.tistory.com/43   RAPTOR: Recursive Abstractive Processing for Tree-Organized RetrievalPaper | GitHub | Overview   Naive RAG의 문제점    위의 그림은 Naive RAG의 전반적인 흐름을 나타낸다. 즉, 사용자가 질문을 하게 되면, 질문과 비슷한 상위 k개의 정보들을 추출하여, 답변을 생성하는 것이다. 만약 K 값이 .. 논문리뷰 G3LU https://g3lu.tistory.com/43 https://g3lu.tistory.com/43#entry43comment Tue, 29 Oct 2024 16:51:46 +0900 RAG의 패러다임(Naive RAG, Advanced RAG, Modular RAG) https://g3lu.tistory.com/42 오픈AI의 GPT 시리즈, Meta의 LLama 시리즈, Google의 Gemini와 같은 대형 언어 모델(LLM)은 생성 AI분야에서 큰 성과를 이루게 되었다. 하지만 위와 같은 모델들의 문제점은 종종 부정확하거나 관련 없는 정보를 생성하며, 오래된 정보에 의존하고, decision-making 과정이 투명하지 않아 블랙박스 추론을 초래하게 된다.    Retrieval-Augmented Geneartion(RAG)는 외부 지식 소스.. LLM/RAG G3LU https://g3lu.tistory.com/42 https://g3lu.tistory.com/42#entry42comment Sat, 3 Aug 2024 18:54:47 +0900 Retrieval-Augmented Generation 이란? https://g3lu.tistory.com/41 Retreival Augmented Generation(RAG)는 2020년에 사전 학습된 Generator과 Retriever를 결합한 end-to-end 방식으로 처음 제안되었다. 당시 주요 목표는 모델 fine-tuning을 통해 성능을 대폭 향상시키는 것이었다. 2022년 12월 ChatGPT가 출시됨에 따라 RAG라는 방법론이 수면위로 오르게 되었다. RAG는 외부 지식을 활용하여 대규모 언어 모델(LLM)의 추론 능력을 leveraging하면.. LLM/RAG G3LU https://g3lu.tistory.com/41 https://g3lu.tistory.com/41#entry41comment Sun, 21 Jul 2024 01:41:32 +0900 [개념정리] Diffusion Model Loss Function https://g3lu.tistory.com/40 ✔️손실함수(Loss Function)  역방향 과정의 손실함수는 Negative Log-Likelihood (\(-\log \left(p_{\theta }\left(x_{0}\right)\right)\)) 으로 정의할 수 있다. 하지만 이를 직접 최적화하려면, 각 시간 단계 t에서의 모든 상태 \(x_{t}\)를 추적하고 계산해야 하기 때문에 메모리와 계산 자원 측면에서 매우 비효율적이다. 이러한 문제점을 해결하기 위해 변분 추론(V.. Generative AI G3LU https://g3lu.tistory.com/40 https://g3lu.tistory.com/40#entry40comment Sat, 15 Jun 2024 23:17:48 +0900 [개념 정리] Diffusion Model https://g3lu.tistory.com/39 Diffusion Model 이란?  2015년도에 “Deep Unsupervised Learning using Nonequilibrium Thermodynamics”이라는 논문으로 Diffusion Model이 처음으로 등장하였습니다. 본 논문의 저자들은 Diffusion Model를 다음과 같이 설명하였습니다.  The essential idea, inspired by non-equilibrium stati.. Generative AI G3LU https://g3lu.tistory.com/39 https://g3lu.tistory.com/39#entry39comment Sat, 1 Jun 2024 17:48:41 +0900 [논문리뷰] Enhanced Transformer with Rotary Position Embedding(RoFormer) https://g3lu.tistory.com/38 Enhanced Transformer with Rotary Position EmbeddingPaper | GitHub | Guide     Introduction 단어의 sequence order은 자연어 분야에서 큰 가치가 있습니다. RNN 기반의 모델은 각 시퀸스를 재귀적으로 처리하면서 이전 시퀸스에서 계산한 hidden state를 현재 시퀸스로 전달하여 연산을 진행하며, 이를 통해 토큰의 순서를 인코딩할 수 있게 됩니.. 논문리뷰 G3LU https://g3lu.tistory.com/38 https://g3lu.tistory.com/38#entry38comment Tue, 30 Apr 2024 17:15:56 +0900 [논문리뷰] Visual Instruction Tuning (LLaVA) https://g3lu.tistory.com/37 LLaVA : Large Language and Vision Assistant Paper | Github | Demo | Project Page      Introduction   최근 GPT-4, Vicuna, FLAN-T5 등 다양한 거대 언어 모델(LLM, Large Language Model)에 대한 멀티모달 연구가 활발히 이루어지고 있으며, 성.. 논문리뷰 deep learning LLaVA LLM nlp visual instruction tuning G3LU https://g3lu.tistory.com/37 https://g3lu.tistory.com/37#entry37comment Sun, 28 Apr 2024 17:31:24 +0900 [논문리뷰] SA(Segment Anything) https://g3lu.tistory.com/36 본 게시물에서는 2023년도 Meta AI 연구진이 발표한 SA(Segment Anything) 이라는 모델에 대해 리뷰를 하고자 합니다.   Background   ChatGPT와 같은 대용량 언어 모델(LLM)은 strong zero-shot(이전 학습 내용을 기반으로 새로운 Task 및 데이터 예측) 및 few-shot(몇 개의 샘플을 통해 새로운 Task에 적용) 을 통해 NLP분야에서 새로운 패러다임을 이끌어 가고있습니다.. 논문리뷰 computer vision deep learning segmentation G3LU https://g3lu.tistory.com/36 https://g3lu.tistory.com/36#entry36comment Sat, 6 Apr 2024 14:38:25 +0900 [Object Detection] One-stage detector(YOLO,SSD) https://g3lu.tistory.com/35 ※ 앞선 게시물에서는 합성곱 신경망(Convolutional Neural Networ)에 대해 알아보았습니다. CNN은 대체적으로 이미지 처리와 관련된 작업에 사용되지만, 이는 크게 3가지의 유형(이미지 분류, 객체 인식, 이미지 분할)으로 나뉘게 됩니다. 본 게시물에서는 객체인식에 사용되는 알고리즘에 대해 알아보도록 하겠습니다.    객체 인식(Object Detection)  객체 인식(Object Detec.. Computer Vision G3LU https://g3lu.tistory.com/35 https://g3lu.tistory.com/35#entry35comment Mon, 25 Mar 2024 18:32:56 +0900 [Object Detection] NMS(Non-Maximum Suppression) https://g3lu.tistory.com/34 Non-Max Suppression이란, 입력 이미지에 Object Detection 알고리즘에 의해 bounding box regression이 적용되면, 아래의 그림과 같이 객체에 여러 개의 bboxr가 그려지며 물체의 확률 값을 가지게 됩니다. 여러 개의 bbox 중 가장 스코어가 높은 박스만 남기고 나머지를 제거하는 것이 Non-Maximum Suppression 이라고 합니다. 이를 통해 모델을 간결하게 하고 중북된 결과를 제거함으로써 정확.. Computer Vision Non-Maximum Suppression 컴퓨터비전 G3LU https://g3lu.tistory.com/34 https://g3lu.tistory.com/34#entry34comment Sat, 23 Mar 2024 04:18:11 +0900 [Object Detection] mAP(Mean Average Precision) 평가지표 https://g3lu.tistory.com/33 ※ 본 게시물에서는 Object detection의 평가지표인 mAP(Mean Average Precision)에 대해 알아보도록 하겠습니다. mAP 평가지는 IoU와 Precision/Recall의 개념이 기반이 되기에, 함께 알아보도록 하겠습니다.    IoU (Intersection over Union) 분류(Classification)문제 같은 경우, 단순히 예측/실제 Class가 일치하거나 불일치한 것을 구분하면 됩니다. .. Computer Vision G3LU https://g3lu.tistory.com/33 https://g3lu.tistory.com/33#entry33comment Wed, 20 Mar 2024 05:13:09 +0900 [Object Detection] Slide Window & Selective Search 개념 https://g3lu.tistory.com/32 Sliding Window & Regional Proposal Object Detection은 여러 객체에 대한 위치와 클래스를 분류하는데, 복잡한 Feature Map이 도출되기에 객체를 분류하는데 어려움이 있습니다. 그럼 Feature Map를 간단하게 만들기 위해서는 어떻게 해야할까요? 생각보다 단순합니다. 입력 데이터를 일정한 크기의 간격으로 나누고, 각각의 나눈 영역에서 객체를 찾는다면 해결할 수 있습니다. 이러한 방식을 Slid.. Computer Vision G3LU https://g3lu.tistory.com/32 https://g3lu.tistory.com/32#entry32comment Sat, 16 Mar 2024 00:55:48 +0900 [Object Detection] 개념 정리 https://g3lu.tistory.com/31 ※ 앞선 게시물에서는 Image Classifcation에 대해 알아보았습니다. CNN은 대체적으로 이미지 처리와 관련된 작업에 사용되지만, 이는 크게 3가지의 유형(이미지 분류, 객체 탐지, 이미지 분할)으로 나뉘게 됩니다. 본 게시물에서는 객체 탐지 개념에 대해 알아보도록 하겠습니다.    Object Detection 개념   객체인식(Object Detection)을 알아보기전에, 분류(Classificatio.. Computer Vision G3LU https://g3lu.tistory.com/31 https://g3lu.tistory.com/31#entry31comment Fri, 15 Mar 2024 21:14:11 +0900 [Image Classification] 개념과 알고리즘(LeNet5~ResNet) 이해하기 https://g3lu.tistory.com/29 ※ 앞선 게시물에서는 합성곱 신경망(Convolutional Neural Networ)에 대해 알아보았습니다. CNN은 대체적으로 이미지 처리와 관련된 작업에 사용되지만, 이는 크게 3가지의 유형(이미지 분류, 객체 인식, 이미지 분할)으로 나뉘게 됩니다. 본 게시물에서는 이미지 분류에 사용되는 알고리즘과 구현 방법에 대해 알아보도록 하겠습니다.   이미지 분류(Image Classifcation)   Image Classific.. Computer Vision G3LU https://g3lu.tistory.com/29 https://g3lu.tistory.com/29#entry29comment Thu, 7 Mar 2024 23:49:51 +0900 [Python] 구글 이미지 웹크롤링(Selenium) https://g3lu.tistory.com/28 ※ 본 게시물은 Selenium 라이브러리를 활용하여 이미지 웹크롤링하는 방법에 대해 다룹니다.    Import Library #pip install selenium (라이브러리 다운로드) from selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as EC from selenium i.. Algorithm/Python G3LU https://g3lu.tistory.com/28 https://g3lu.tistory.com/28#entry28comment Tue, 5 Mar 2024 14:27:41 +0900 [딥러닝 모델] CNN im2col 이해하기 https://g3lu.tistory.com/27 ※ 본 게시물에서는 합성곱 연산을 효율적으로 수행하기 위한 im2col에 대해 알아보도록 하겠습니다.  im2col 이해하기 CNN은 3차원의 데이터 (주로 이미지)를 학습시켜 특징을 추출하는데 특화되어 있는 신경망입니다. 이에 Spatial 영역의 정보를 잃지 않기 위해 합성곱 연산을 여러 개의 for문과 같이 사용하게 됩니다. 이에 수만 건의 데이터를 처리해야하는 CNN에 적합하지도 않고 효율적이지도 않습니다. 또한 Numpy를.. Computer Vision G3LU https://g3lu.tistory.com/27 https://g3lu.tistory.com/27#entry27comment Fri, 23 Feb 2024 04:39:13 +0900 [CNN] 합성곱 신경망 Pytorch 구현 https://g3lu.tistory.com/26 ※ 본 게시물은 MNIST 데이터를 기반으로 합성곱 신경망(CNN)을 구현하도록 해보겠습니다. 앞서 CNN은 크게 아래와 같은 구성 요소로 이루어져있습니다.  Convolution Layer(합성곱 층) : 이미지 특성 추출  Pooling Layer(풀링 층) : 이미지의 특성 축약 → 주로 Max-Pooling 사용 Fully Conntected Network Layer(완전연결 신경망) : 추출 및 축약된 특징(=n차원.. Computer Vision E G3LU https://g3lu.tistory.com/26 https://g3lu.tistory.com/26#entry26comment Wed, 21 Feb 2024 20:29:24 +0900 [CNN] 합성곱 신경망 개념 정리 https://g3lu.tistory.com/25 ※ 앞선 포스팅에서는 신경망을 학습할 때, 정확도와 효율을 높일수 있는 다양한 기법에 대해 알아보았습니다. 본 게시물에서는 이미지 인식분야에서 통상적으로 사용되는 Convolutional Nerual Network(CNN)에 대해 알아보도록 하겠습니다.    합성곱 신경망 소개   합성곱 신경망은 이미지 처리 성능이 좋은 인공 신경망 알고리즘 입니다. 합성곱 신경망은 이미지를 분석할 때,  3차원의 Tensor.. Computer Vision CNN 딥러닝 합성곱 신경망 G3LU https://g3lu.tistory.com/25 https://g3lu.tistory.com/25#entry25comment Sun, 18 Feb 2024 22:56:57 +0900 [LeetCode] Valid Anagram https://g3lu.tistory.com/24 문제:  Given two strings s and t, return true if t is an anagram of s, and false otherwise. An Anagram is a word or phrase formed by rearranging the letters of a different word or phrase, typically usin.. Algorithm/Leetcode G3LU https://g3lu.tistory.com/24 https://g3lu.tistory.com/24#entry24comment Fri, 16 Feb 2024 15:54:34 +0900 딥러닝의 학습 #2.4 (오버피팅 억제) https://g3lu.tistory.com/23 ※ 앞선 포스팅에서는 각 층의 활성화값을 강제적으로 적당히 퍼뜨리도록 하는 방법인 배치정규화에 대해 알아보겠습니다. 본 게시물에서는 오버피팅을 억제하는 방법에 대해 알아보도록 하겠습니다.  더보기 2024.02.06 - [Data Science/DL] - 딥러닝의 학습 #2.3 (배치 정규화) Over-fitting (과적합)  딥러닝의 핵심은 여러 은닉층과 활성화 함수를 결합하여 비선형 영역을 표현하는 것 입니다. 이에 따라.. Deep Learning 이해 G3LU https://g3lu.tistory.com/23 https://g3lu.tistory.com/23#entry23comment Fri, 16 Feb 2024 13:31:00 +0900 딥러닝의 학습 #2.3 (배치 정규화) https://g3lu.tistory.com/22 ※ 앞선 포스팅에서는 가중치의 초깃값을 적절히 설정하여 분포가 적절히 퍼지는 기법 (Xavier & He 초기화)에 대해서 알아보았습니다. 본 게시물에서는 각 층의 활성화값을 강제적으로 적당히 퍼뜨리도록 하는 방법인 배치정규화에 대해 알아보겠습니다.    더보기 2024.01.16 - [Data Science/DL] - 딥러닝의 학습 #2.2 (가중치 초깃값-Xavier&He)   Gradient Van.. Deep Learning 이해 G3LU https://g3lu.tistory.com/22 https://g3lu.tistory.com/22#entry22comment Tue, 6 Feb 2024 19:51:40 +0900 [Softeer] Lv.1 근무시간 (Python) https://g3lu.tistory.com/21 문제 당신은 인사팀 직원으로, 각 직원의 근태를 확인하고자 한다. 당신의 회사는 자율출퇴근제를 실시하기 때문에 각 직원이 정확히 몇 시에 출근하는 것은 중요하지 않고, 총 근로 시간이 몇 분인지가 중요하다. 총 근로 시간이 법정근로시간을 초과하지 않아야 하면서, 회사와 직원 사이에 계약한 시간 이상이어야 하기 때문이다.직원이 하루 동안 근무한 시간은 출근 시각과 퇴근 시각 사이의 시간으로 정의한다. 이 문제에서는 식사 시간 등 근무 외 시간을 근무 시.. Algorithm/Softeeer G3LU https://g3lu.tistory.com/21 https://g3lu.tistory.com/21#entry21comment Mon, 5 Feb 2024 22:56:08 +0900 알고리즘 입력 받기 / sys.stdin.readline() https://g3lu.tistory.com/20 ※ 본 포스팅에서는 알고리즘의 입력을 받는 것에 대해 소개하고자 합니다. 주로 파이썬을 통해 알고리즘 입력을 받을 때, Input()을 사용하지만, 시간초과 에러가 발생하곤 합니다. 이러한 문제점을 방지하고자, sys.stdin.readline()에 대해 알아보겠습니다. sys.stdin.readline() 특징 ✔️ 문자열로 입력을 받는다.   sys.stdin.readline()은 문자열로 입력을 받게 됩니다. 따라서, 읽어온 문자열은.. Algorithm/Python G3LU https://g3lu.tistory.com/20 https://g3lu.tistory.com/20#entry20comment Mon, 5 Feb 2024 18:45:25 +0900 [Softeer] Lv.1 A+B (Python) https://g3lu.tistory.com/19 문제 두 정수 A와 B를 입력받은 다음, A+B를 출력하는 프로그램을 작성하시오.   제약조건 두 정수 A와 B는 1이상 9이하의 정수이다.   입력형식 첫째 줄에 테스트 케이스의 개수 T가 주어진다.각 테스트 케이스는 한 줄로 이루어져 있으.. Algorithm/Softeeer G3LU https://g3lu.tistory.com/19 https://g3lu.tistory.com/19#entry19comment Mon, 5 Feb 2024 16:09:05 +0900 [Softeer] Lv.1 주행거리 비교하기(Python) https://g3lu.tistory.com/18 https://softeer.ai/practice/6253   Softeer - 현대자동차그룹 SW인재확보플랫폼   softeer.ai   문제  두 차량 A와 B의 주행거리가 자연수로 주어졌을 때, 주행거리를 비교해서 어느 차량의 주행거리가 더 큰지 알아보자. 제약조건 0 ≤ A,B ≤ 100,000 입력형식   첫째줄에 두차량 A,B의 주행거리가 한칸의 공백을 두고 주어.. Algorithm/Softeeer G3LU https://g3lu.tistory.com/18 https://g3lu.tistory.com/18#entry18comment Mon, 5 Feb 2024 15:11:05 +0900 딥러닝의 학습 #2.2 (가중치 초깃값-Xavier&He) https://g3lu.tistory.com/17 ※ 앞선 포스팅에서 딥러닝의 학습(옵티마이저) 에 대해 알아보았습니다. 궁금하시다면, 숨긴 글 참조 부탁드리겠습니다!  본 게시물에서는 가중치의 초깃값 규칙과 기법에 대해서 알아보도록 하겠습니다.  더보기 2023.12.18 - [Data Science/DL] - 딥러닝의 학습 #2.1 (Optimizer 종류와 학습)   딥러닝의 학습 #2.1 (Optimizer 종류와 학습) ※ 앞선 포스팅에서 딥러닝의 학습(Back.. Deep Learning 이해 G3LU https://g3lu.tistory.com/17 https://g3lu.tistory.com/17#entry17comment Tue, 16 Jan 2024 00:16:57 +0900 딥러닝의 학습 #2.1 (Optimizer 종류와 학습) https://g3lu.tistory.com/16   ※ 앞선 포스팅에서 딥러닝의 학습(Backpropagation) 에 대해 소개하였습니다. 숨긴 글 참조 부탁드리겠습니다!    더보기 2023.12.05 - [Data Science/DL] - 딥러닝의 학습 #1 (Backpropagation)   딥러닝의 학습 #1 (Backpropagation) ※ 앞선 포스팅에서 딥러닝의 구조에 대해 소개하였습니다. 숨긴 글 참조 부탁드리겠습니다! 더보기 2023.11... Deep Learning 이해 G3LU https://g3lu.tistory.com/16 https://g3lu.tistory.com/16#entry16comment Mon, 18 Dec 2023 23:18:20 +0900