일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파인튜닝
- rag parsing
- pdf parsing
- gemma3
- rag-fusion
- leetcode
- Cross Entropy Error
- 딥러닝
- 데이터 파싱
- deep learning
- rrf
- 시계열
- nlp
- fine tuning
- multi-query
- visual instruction tuning
- 활성화 함수
- qlora
- Mean squared error
- LLaVA
- LLM
- anomaly detection
- 퍼셉트론
- 손실함수
- Non-Maximum Suppression
- Time Series
- 합성곱 신경망
- 이상탐지
- 오차역전파
- 활성화함수
- Today
- Total
목록전체 글 (51)
Attention, Please!!!
Gemma 3 모델을 완전하게 파인튜닝하려면 80GB VRAM을 지원하는 고성능 GPU가 필요하다. 그러나 LoRA를 기반으로 파인튜닝할 경우, 1B 및 4B 모델은 24GB VRAM이 요구되며, 27B 모델은 54GB VRAM이 필요하다. 다만, 27B 모델을 4비트로 양자화하면 24GB VRAM에서도 파인튜닝이 가능하지만, 시퀀스 길이가 제한되며 임베딩을 재학습할 수 없다는 단점이 있다. 이로 인해 chat template 사용 시 문제가 발생할 수 있다. Chat template은 대화형 AI 모델이 채팅 환경에서 효과적으로 작동하도록 설계된 특정 구조를 의미하며, 일반적으로 또는 같은 특별 토큰을 포함한다. 하지만 이러한 토큰이 학습되지 않으면 모델이 대화 흐름을 제대로 이해하지 못해 부정확하..
2025년 3월 중 구글은 Gemma 모델 시리즈의 업데이트 버전인 Gemma 3를 발표하였다. 이 모델은 비슷한 파라미터를 가진 다른 오픈 소스 모델들에 비해 강력한 성능을 보여주며, 100B 파라미터 미만의 오픈 LLM 중 가장 뛰어난 능력을 갖춘 Gemma 3의 27B 모델이 있다. 이를 달성하기 위해 구글은 정확도와 효율성을 모두 개선할 수 있는 새로운 아키텍처를 개발하였으며, Gemma 3는 기본적으로 멀티모달 기능을 지원하여 텍스트와 이미지 입력을 모두 처리할 수 있다는 아주 강력한 장점이 있는 모델이다. 더 나아가 Gemma 3 모델은 "single-accelerator model"을 기반으로 설계 되었으며, LMAreana 리더보드에서 Chatbot Arena Elo Score 평가에서..
대규모 언어 모델의 개발과 활용이 점점 더 보편화되면서, 모델의 효율성을 극대화하는 것이 핵심 과제로 떠오르고 있는 추세이다. 특히 추론 단계에서 메모리 사용량을 정확하게 추정하여, 배포하고 운영하는 것은 서비스 측면에서 가장 필수적인 요소이다. 모델의 성능이 아무리 뛰어나도 배포 환경에서 실행되지 않는다면 무용지물이다. DeepSeek-R1 모델은 685B 파라미터 (즉, 6850억 개의 파라미터)에 달하는 것을 클라우드 환경에서 상당한 자원을 요구할 것이며, 엣지 디바이스에서는 실행 자체가 거의 불가능할 것이다. 이에 따라 메모리 사용량을 미리 분석하여 모델을 경량화하거나 최적화 기법을 적용해 배포할 수 있도록 만드는 것이 가장 중요하다고 생각한다. 따라서, 본 게시물에서는 LLM을 사용할 때, 메..
DeepSeek R1 모델이 출시된 이후, 이를 동일하게 구현하기 위해 다양한 연구 혹은 실험이 진행되고 있다. R1 모델이 open-source로 배포가 되면서 LLM 시장에서 큰 파급효과를 불러 일으켰다. 현재 R1 모델을 통해 생성된 데이터 셋이 많이 구축되고 있어, 이를 활용해 다른 모델들이 유사한 방식으로 "생각"할 수 있도록 훈련시킬 수 있는 가능성이 극대화 되고 있다. 이러한 데이터 셋을 활용하면 기존 LLM을 R1의 추론 능력에 맞춰 모방하도록 Fine-tuning 하는 작업이 비교적 수월해진다. 본 게시물에서는 커뮤니티에서 만든 R1 데이터 셋을 활용하여 LLM의 성능을 높이기 위한 Fine-Tuning with Adapter에 대해 알아보도록 하고자 한다. DeepSeek-R1에서 ..
대형 언어 모델(LLM)의 Reasoning 관점에 대한 연구가 최근 AI 분야에서 가장 뜨거운 주제 중 하나로 떠오르고 있는 것 같다. 이에 대해 간단하게 먼저 알아보겠다. 프롬프트 기반 추론 향상: 최근 연구에 따르면, "Chain of Thought" 같은 프롬프트 기술을 통해 LLM이 단계별로 문제를 풀도록 유도하고 있다. 예를 들어, 복잡한 수학 문제를 풀 때 모델이 중간에 직접적으로 개입하여 스스로 답변을 개선하는 방식으로 최종 다변의 정확도를 높이는 방식이다. 구체적으로는 "Tree of Thought"이나 "Self-Consistency" 같은 변형된 접근법도 상당한 주목을 받고 있는데, 이는 모델이 여러 가능한 추론 경로를 탐색하거나 스스로 답변을 검정하는 방식으로 날날이 발전되고 있는 ..
본 게시물은 Lance Martin 님의 유튜브 영상을 기반으로 작성되었습니다. 사용자가 작성한 질문이 모호하거나 구체적으로 구조화되지 않을 경우, 문서에서 의미적 유사성을 기준으로 검색하는 과정에서 원하는 정보를 찾지 못하게 되는 경우가 존재한다. 이러한 문제를 해결하기 위해 사용자의 질문을 다양한 관점에서 재작성하거나 다른 표현으로 변환하여, 원래 질문의 의미를 보존하면서도 문서와의 내용과의 매칭 가능성을 높이는 것을 의미하는 것을 Query Translation 이라고 한다. 위 3 가지의 기법은 Query Translation의 대표적인 기법이다. 이들은 각각 다르게 사용자의 질문을 변형시켜 검색 성능을 향상시키는 기법 질문을 재구성하거나 변형하는 방식이라는 공통점을 가지고 있다. Query ..
본 게시물은 Florian June님의 게시물을 참고하였습니다. PDF 파일과 스캔된 이미지를 인공지능에 활용하기 위해 구조화(Structured)되거나 반구조화(Semi-Structured)된 형식으로 변환하는 것은 매우 중요한 작업 중 하나이다. 하지만 PDF 파일은 텍스트나 이미지를 문서 내의 정확한 위치에 배치하기 위해 좌표 기반 렌더링(Coordinate-Based Rendering)을 사용하기 때문에 좌표 정보와 이에 따른 정보를 추출하는 정교한 기술이 필요하다. 최근에는 Upstage와 Llamaindex와 같은 기업에서 제공하는 고성능 Document Parser들이 등장하면서 문서 분석 및 파싱 작업이 매우 정교하고 효율적으로 이루어지고 있는 추세이다. 이러한 상용 솔루션들은 뛰어난 ..
본 게시물은 Gilbert Strang 교수님의 강의를 기반으로 작성되었습니다. 선형대수학의 근본적인 문제는 연립선형방정식을 푸는 것이다. 연립방정식은 여러 개의 선형방정식으로 이루어진 방정식의 집합이라고 표현할 수 있다. 각 방정식은 미지수들이 선형적인 형태로 나타나는 것이 특징이며, 이 방정식을 한 번에 풀어 여러 미지수의 값을 찾는 것이 가장 큰 목표이다. 연립선형방정식은 일반적으로 Ax = b와 같은 형태로 표현할 수 있으며, Ax가 x(col1) + y(col2)으로 표현되면, 이를 선형결합(Linear Combination)이라고 아래의 그림처럼 정의할 수 있다. 본 게시물에서는 연립방정식을 3 가지의 관점에 대해 다룰 것이다. 1. Row Picture Row Picture는 연립..
자연어처리에 대해 여러 논문을 읽고 공부하고 있지만, 대학교 때 배운 교과목 중 가장 중요하다고 판단되는 것은 단연 선형대수학이다. 2017년 발표된 "Attention is All You Need" 논문에서 소개된 Attention 메커니즘과 Softmax 연산만 보아도 선형대수학의 중요성을 쉽게 느낄 수 있다. Attention 메커니즘은 벡터와 행렬의 곱셈, 내적 연산, 그리고 확률 분포 계산과 같은 수학적 원리를 기반으로 동작하며, Softmax 연산은 고차원 공간에서 데이터를 정규화하여 특정 요소의 가중치를 구체화한다. 이러한 과정은 선형대수학적 사고를 바탕으로 효율적이고 정교하게 구현된다. 또한, 대표적인 언어 모델인 BERT와 GPT는 고차원 벡터 공간에서 텍스트의 의미를 학습하고 표현하는 ..
본 게시물은 Florian June의 게시물을 참고하였습니다.💡 PARSING 이란? AI를 연구하는 사람들은 일반적으로 특정 문제를 해결하기 위해 모델링을 수행하지만, 이러한 모델링의 성능은 데이터의 질과 양에 크게 좌우된다. 데이터의 품질이 높을수록 모델의 예측 정확도와 응답의 신뢰성이 높아지며, 반대로 데이터가 부정확하거나 부족하면 원하는 결과를 얻는건 불가능하다. 따라서 많은 연구자와 개발자들은 데이터를 수집하고 전처리하는 데 상당한 시간과 자원을 투자합니다. RAG도 이와 마찬가지로 데이터의 중요성이 크게 부각이 된다. RAG를 효과적으로 적용하려면, 용도에 적합한 데이터를 수집하고, 이를 체계적으로 파싱(parsing) 및 구조화 하는 것이 상당히 중요하다. 이러한 작업은 단순히 데이터를 모..