본문 바로가기
728x90

finetunning2

LoRA+: Efficient Low Rank Adaptationof Large Models 짧은 논문리뷰 안녕하세요 Simon 입니다. NLP LLM 논문을 읽다보면 방대한 양에 지칠 때가 있는데요. 과연 이 논문 을 다 읽더라도 나에게 명확하게 인사이트를 줄 수 있을까? 란 생각이 항상 듭니다. 고효율은 아니라고 생각되어서, 이제 제가 필요한 인사이트가 아니라면? 과감하게 Abstrack 정도와 필수 개념만 보고 요약을 하려고 합니다. 아마 비슷하게 생각하실거라고 생각합니다. 오늘 리뷰해드릴 논문은 LoRA+ 튜닝 의 기존의 방법론보다 더 성능을 개선시키는 LoRA+ 라는 논문 입니다. LoRA+: Efficient Low Rank Adaptation of Large Models In this paper, we show that Low Rank Adaptation (LoRA) as originally in.. 2024. 2. 26.
Fine-tune Mixtral 8x7B (MoE) on Custom Data 코드 리뷰 안녕하세요 Simon 입니다. 오늘은 조금 색다르게 코드 리뷰를 해볼 생각입니다. 작년 말 MoE 전문가 네트워킹 라우팅 방식의 트랜스포머 기반의 MoE 를 리뷰해드린적 있는데 이게 성능도 좋고 실제로, 많이 보이고 있습니다. 우연히 유투브를 보다가 가볍게 커스텀데이터를 파인튜닝 할 수 있는 코드를 찾았고 이에 관련하여 리뷰를 해보겠습니다. Fine-tune Mixtral 8x7B (MoE) on Custom Data - Step by Step Guide !pip install transformers trl accelerate torch bitsandbytes peft datasets -qU !pip install flash-attn --no-build-isolation from datasets impo.. 2024. 2. 13.
728x90
반응형