본문 바로가기
728x90

파인튜닝3

[Fine-tuning] Llama2 파인튜닝 코드해석 2탄 https://wiz-tech.tistory.com/78에 이어서 진행해보겠습니다. [Fine-tuning] Llama2 파인튜닝 코드해석 import os import torch from datasets import load_dataset from transformers import ( AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, HfArgumentParser, TrainingArguments, pipeline, logging, ) from peft import LoraConfig, PeftModel from trl import SF wiz-tech.tistory.com 9. 모델 로드부터 저장까지 # Load dataset (you can pr.. 2024. 1. 30.
LLM 데이터셋 관련 정리 - 대규모 원시 말뭉치 안녕하세요 Simon 입니다. 오늘은 LLM 데이터셋 관련 대규모 말뭉치에 관해 글을 정리해볼까 합니다. 오늘날의 GPT와 같은 모델들은 이 대규모 원시 말뭉치를 통해 Self-Supervised Training 이 되어 다양한 형태로 Fine-Tunning 되어 우리의 일상속에 들어와 있습니다. T5를 시작으로 엄청나게 발전을 많이 했는데요. 저도 2022년에 AI를 입문하게 되었고 자연어처리는 GPT가 나오고 배웠지만 거의 T5가 주류를 이루고 있었는데 현재 지금 엄청 빠르게 발전한 모습이네요. 그렇다면 이 LLM들을 어디서 학습데이터를 구하냐? 바로 우리 곁에 있습니다. 다들 한번쯤 해보신 크롤링을 통해서 데이터를 모을 수 있고, 위에 소개해드린대로 AIhub 와 같은 데이터센터에서 가져올 수 도 .. 2024. 1. 17.
SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 논문리뷰 안녕하세요 Simon입니다. 오늘 소개해드릴 논문은 SOLAR 10.7B에 관한 논문입니다. 지금 FastCampus에서 Upstage의 파인튜닝 노하우 강의를 듣고 있는데 김성훈 CEO가 소개해준 내용과 연관해서 리뷰를 해보겠습니다. 강의를 수강하는데 계속 웃음꽃이 떠나질 않는 거 보면 확실히 현재 제일 hot 한 최전선에 있는 분야에서 최고가 된 만큼 얼마나 기쁠까 생각이 들긴 합니다. LLM의 평가지표는 여러가지가 있습니다. H4는 4개의 데이터셋으로 평가한다는 의미인데요, 현재 H7 까지도 증가해서 평가를 받고 있습니다. 그말은 즉슨 H4에서의 벤치마크가 높은데 H7에서는 떨어진다? 이 말은 모델이 그만큼 일반화가 되지 않은 모델이라고 생각해 볼 수 있습니다. LLM 평가지표에 대한 글은 제가 다.. 2024. 1. 4.
728x90