Improving Language Understanding by Generative Pre-Training (GPT1)
·
Paper
paper : https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdfmodel : https://huggingface.co/openai-community/openai-gpt openai-community/openai-gpt · Hugging FaceOpenAI GPT 1 Table of Contents Model Details Model Description: openai-gpt (a.k.a. "GPT-1") is the first transformer-based language model created and released by OpenAI. The model is a causal (unidirectional) transform..
LoRA: Low-Rank Adaptation of Large Language Models
·
Paper
paper: https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language ModelsAn important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes learxiv.orgcode: https://github.com/microsoft/LoRA Git..
Attention Is All You Need (Attention Mechanism & Transformers)
·
AI
Previous Knowledge :RNN은 순차적으로 하나씩 시퀀스로 인풋으로 읽어온다. 읽어오면서 자기자신을 덮어 씌워주면서 업데이트를 하는 방식으로써, CNN같은 인풋 길이를 고정적으로 정하지 않고 입력에 따라 반복하여 넣어줌으로써 가변적인 인풋을 받을 수 있게됐다.RNN은 기본적으로 fully connect layer 를 계속 통과하기 때문에, Backpropagation 시에 미분값이 계속 곱해져서 Gradient Venising 이나 Gradient Exploding 문제가 있을 수 있고, 긴 데이터를 잘 기억하지 못하는 문제가 있다.  LSTM은 sell state 라는 장기기억장치를 추가해주고 숏컷를 추가하여 해결 many to many(복수개의 입력, 복수개의 출력)에서, 하나의 입력에 ..
벡터의 유사도 계산 (Norm 등)방법들
·
Math
1. 코사인 유사도 (Cosine Similarity)코사인 유사도는 벡터간의 내적식을 이용하여, 벡터간의 유사도를 코사인 각도로 측정하는 방법이다.두 벡터가 이루는 각도의 코사인과 두 벡터 크기(제곱합의 제곱근)의 곱으로도 할 수 있으므로,이렇게 나타 낼 수 있다. 이 식을 코사인 각도에 대하여 풀면,  크기가 항상 1인 단위 벡터로 표현이 가능하다. 1에 가까울수록 같은값, 0에 가까울수록 독립적인 값을 뜻한다.두 벡터의 유사도가 0이라면, 기저벡터로써 span할 수 있다. 여기서 코사인 각도의 크기로 얼마나 비슷한 방향을 보고 있는지로 유사도를 측정하는 것이다.벡터의 크기가 아닌 패턴(각도)만 보므로, 크기가 다른 벡터를 비교할 때 유용하다. 2. 거리 계산  2-1. Norm (민코프스키)선형 대..
평균제곱오차(MSE), 평균절대오차(MAE)
·
AI
MSE실제값과 예측값의 차이를 제곱해서 합한다음 데이터 갯수만큼 나눠서 평균화 하는 것이다.예측값과 실제값 차이의 면적의 평균과 같다고 할 수 있다.MSE가 0에 가까울 수록 추측한 값이 원본에 가까운 것이기 때문에 정확도가 높다고 볼 수 있다. 특이값이 있으면 제곱을 하기 때문에 에러가 많이 늘어난다. 즉, outlier에 더 민감하게 반응을 한다.이 점 때문에 손실함수로 많이 사용이 된다.  MAEMSE와 달리 이름에서 알 수 있듯, 제곱대신 절댓값을 씌워준다.MSE와 달리 제곱을 하지 않기 때문에, 이상치에 민감하게 반응하지 않는다는 점이 있다.
LoRA: Low-Rank Adaptation of Large Language Models
·
Paper
paper: https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language ModelsAn important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes learxiv.org code: https://github.com/microsoft/LoRA Gi..
편미분
·
Math
편미분의 의미는 간단하다. 여러변수들이 있을 때, 그중에 하나만 미분하고 나머지는 상수로 취급해서 정의내리는 것을 편미분이라고 한다.Example:x에 대한 편미분이다. 나머지 y^2값은 상수값을 취급되어 0으로 된다. 편미분이 인공지능에서 중요한 이유는 연쇄법칙 (chain rule)을 사용하여 Backpropagation하기 때문에,y에 대한 편미분과 x 에 대한 편미분으로 표현하여 z를 x에대한 편미분을 z를 x에 대한 편미분으로 나타낼 수 있다.
git - 초기설정 정리
·
Others/Others
git을 설치하기 위해서는 git bash의 설치가 필요하다.git 설치는 아래의 링크를 참고해 설치한다.https://code-lab1.tistory.com/249 [Git] 윈도우10(window 10) 깃(Git) 설치하기 - Git 기초(0.5)윈도우 10(Window 10) 깃(Git) 설치하기 1. Git 설치 파일 다운로드 윈도우 10에서 깃은 공식 홈페이지에서 다운로드할 수 있다. https://git-scm.com/downloads Git - Downloads Downloads macOS Windows Linux/Unix Older releasescode-lab1.tistory.com그 후, github웹에서 repo초대받았다면, clone을 해야한다.(clone은 이미 레포지토리가 만들..
가상메모리 관리
·
Others/Database & OS
가상메모리란?보조기억장치를 주기억장치처럼 사용하는 개념 => 램 메모리가 부족해서 램보다 훨신 느리지만 하드디스크를 사용하는 개념.보조기억장치의 논리적인 주소(가상주소)가 할당된다. =>논리적인 주소를 물리적인 주소로 바꿔주는 사상작업이 필요하다.같은 크기로 분할하는 페이징기법과, 서로 다른 크리고 분할하는 세그멘테이션 기법이 있다. 블록사상 (block mapping)가상메모리를 블록 단위로 나눠준다.페이지 페이징?세그먼트 세그먼테이션?가상주소 표기방법 : 가상주소(v) = ( 블록번호(b), 변위 (d) ).  페이징 (paging)프로그램을 고정크기(페이지)로 할당하고,주기억공간을 똑같은 크기(프레임)으로 분할내부 단편화가 발생한다.페이지 사상 테이블: 논리적 주소와 실제 주기억 장치간의 물리적 주..
[Spring] 의존성 주입 이란 (DI (Dependency Injection))
·
Others/Web
의존성 주입 : 단어만 들으면 동사의 느낌이라서 의존성을 주는 '상태'가 떠올려지는데, 아니다. 어떤 객체에서 다른 객체를 사용할 때 직접 만들어서 사용하는 것이 아니라, setter, 생성자 등 을 사용해서 주입하는 '방법' 이다.장난감은 배터리에 의존하고 있는데, (장난감은 베터리 상황에 영향을 받는다는 뜻)배터리 일체형은 만들어 질때 베터리가 함께(내부에서 의존성을 주입) 나오고 있고배터리 분리형은 베터리가 소모(변경)하면 교체가능(외부에서 의존성 주입) 하다.코드로 보면,배터리 일체형은 생성자에서만 의존성을 주입하고 있어서 베터리 교체가 불가능하다.
choimino