choimino

(2025.04.17 업데이트) 1. ModuleNotFoundError: No module named 'torch.nn.attention'ModuleNotFoundError: No module named 'torch.nn.attention'torch.nn.attention은 PyTorch 2.1 이상에서 도입된 새로운 attention 관련 모듈 / PyTorch 업데이트 해야함-> 해결법pip install --upgrade torch --extra-index-url https://download.pytorch.org/whl/cu121118은 쿠다버전임 (쿠다버전확인하는법)2. RuntimeError: Attempting to deserialize object on CUDA device 3 but t..

새로운 실험을 할때마다, 도커를 새로 만들고 또 찾아보고 계속 반복되는게 귀찮아서,경험상 딥러닝 실험 환경을 구축하고 관리하기 가장 좋은 방법을 기록하고자 한다.내 딥러닝 실험환경의 구조는,서버(ssh, 도커1(ssh), 도커2(ssh),...) 이렇게 이루어진다. 도커는 콘다같이 가상환경처럼 사용할 수 있다. (하지만 근본적으로 다르다. 도커는 운영체제 수준의 가상화다.) 1. Server 에서의 환경 구축(서버 ssh)서버 환경은 다음과 같다.ubuntu 22.04docker 24.0.7(1) SSH 설치apt-get update apt-get install nano net-tools openssh-server필요한 것들을 설치해준다음, 서버에서 어떤 포트를 사용할지 지정해줘야한다.nano /etc..

개요최근 딥러닝이 발전하면서, 자연어 처리(NLP) 쪽에는 OPT나 LLaMA 같은 모델이 등장했다. 비전-랭귀지(V&L) 쪽에서는 CLIP이나 DALL·E 같은 모델이 등장했다. 이런 대형 모델들은 뛰어난 성능을 보이지만, 전체를 미세 조정하려면 컴퓨트 코스트가 매우 크다는 문제가 있다.이를 해결하기 위해 LoRA가 등장했다. LoRA는 사전 학습된 모델 가중치는 그대로 두고, 저차원 매트릭스만 학습하는 방법이다. 하지만 최근에는 이미 학습된 LoRA를 여러 개 조합해서 사용하는 방법이 연구되고 있다.문제는, 기존 방식으로 3개 이상 LoRA를 단순 합치면 생성 퍼포먼스가 떨어질 수 있다는 점이다. 가중치 정규화를 적용해도, 각 LoRA의 유니크한 특성이 사라질 수 있다.이 논문에서는 훈련된 LoRA들..

개요이 논문은 프롬프트에 학습가능한 임베딩 벡터를 추가해서 파인튜닝하는 방법인 P-Tuning을 처음 소개하였다.AI Open Journal 2023에 출판되었다.사전 학습된 언어 모델(PLMs)은 자연어 이해(NLU) 분야의 성능을 향상시켰다.PLMs는 마스크드 언어 모델링, 오토리그레시브 언어 모델링, 시퀀스 투 시퀀스 모델링 등을 통해 훈련되었다.프롬프트를 활용하면 PLM을 소규모 라벨링 데이터로 파인튜닝하거나, 모델을 프리즈한 상태로 다운스트림 태스크에 사용할 수 있다.프롬프트 기반 학습은 여러 NLU 태스크에서 성능을 개선하는 데 사용되었다.문제 수작업으로 작성된 discrete prompt는 불안정성을 가진다.프롬프트에서 단어 하나만 변경해도 성능이 하락할 수 있다.예시: "이 도시는 어디에 ..

paper : https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdfmodel : https://huggingface.co/openai-community/openai-gpt openai-community/openai-gpt · Hugging FaceOpenAI GPT 1 Table of Contents Model Details Model Description: openai-gpt (a.k.a. "GPT-1") is the first transformer-based language model created and released by OpenAI. The model is a causal (unidirectional) transform..

paper: https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language ModelsAn important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes learxiv.orgcode: https://github.com/microsoft/LoRA Git..

Previous Knowledge :RNN은 순차적으로 하나씩 시퀀스로 인풋으로 읽어온다. 읽어오면서 자기자신을 덮어 씌워주면서 업데이트를 하는 방식으로써, CNN같은 인풋 길이를 고정적으로 정하지 않고 입력에 따라 반복하여 넣어줌으로써 가변적인 인풋을 받을 수 있게됐다.RNN은 기본적으로 fully connect layer 를 계속 통과하기 때문에, Backpropagation 시에 미분값이 계속 곱해져서 Gradient Venising 이나 Gradient Exploding 문제가 있을 수 있고, 긴 데이터를 잘 기억하지 못하는 문제가 있다. LSTM은 sell state 라는 장기기억장치를 추가해주고 숏컷를 추가하여 해결 many to many(복수개의 입력, 복수개의 출력)에서, 하나의 입력에 ..

1. 프로젝트 소개프로젝트 목표는 제목에서 알 수 있듯이 LLM과 RAG를 이용한 교칙 기반 챗봇 제작이다.실제로 대학 커뮤니티 앱 '에브리타임'에는 수많은 학칙 관련 질문이 매일 올라온다.신입생이든 재학생이든, 학칙을 잘 몰라서 혹은 찾기 귀찮아서 계속 질문을 올리는 경우가 많다.이런 문제를 해결하기 위해, 학칙에 기반한 정확한 답변을 제공하는 챗봇을 만드는 것이 본 프로젝트의 핵심이다. 2. 왜 RAG인가?RAG(Retrieval-Augmented Generation)를 사용하는 이유는 두 가지다.1. 데이터 최신성 보장LLM은 학습 시 고정된 데이터를 기반으로 하기 때문에 최신 데이터를 반영하지 못한다.예를 들어 GPT는 2021년 이전 데이터까지만 알고 있다.따라서 특정 학교의 학칙 같은 정보는..

python -c "import torch; print(torch.version.cuda)"리눅스 CLI에서 바로 실행하면 나온다

1. 코사인 유사도 (Cosine Similarity)코사인 유사도는 벡터간의 내적식을 이용하여, 벡터간의 유사도를 코사인 각도로 측정하는 방법이다.두 벡터가 이루는 각도의 코사인과 두 벡터 크기(제곱합의 제곱근)의 곱으로도 할 수 있으므로,이렇게 나타 낼 수 있다. 이 식을 코사인 각도에 대하여 풀면, 크기가 항상 1인 단위 벡터로 표현이 가능하다. 1에 가까울수록 같은값, 0에 가까울수록 독립적인 값을 뜻한다.두 벡터의 유사도가 0이라면, 기저벡터로써 span할 수 있다. 여기서 코사인 각도의 크기로 얼마나 비슷한 방향을 보고 있는지로 유사도를 측정하는 것이다.벡터의 크기가 아닌 패턴(각도)만 보므로, 크기가 다른 벡터를 비교할 때 유용하다. 2. 거리 계산 2-1. Norm (민코프스키)선형 대..

티스토리툴바