728x90 SFT2 [논문 리뷰] V-STaR: Training Verifiers for Self-Taught Reasoners 논문 링크 : https://arxiv.org/abs/2402.06457 V-STaR: Training Verifiers for Self-Taught Reasoners Common self-improvement approaches for large language models (LLMs), such as STaR (Zelikman et al., 2022), iteratively fine-tune LLMs on self-generated solutions to improve their problem-solving ability. However, these approaches discard the large amounts arxiv.org 기존 LLM들의 Self-Taught 방법론들은 스스로 생성한 해결책.. 2024. 2. 14. [Fine-tuning] Llama2 파인튜닝 코드해석 OpenLLM leaderboad에 참여하기 위해, 가장 먼저 Llama2 파인튜닝 코드를 분석하면서 이해해보려고합니다. https://colab.research.google.com/drive/1PEQyJO1-f6j0S_XJ8DV50NkpzasXkrzd Fine-tune Llama 2 in Google Colab.ipynb Colaboratory notebook colab.research.google.com 위 코드를 보고 따라서 진행해보았습니다. 1. 파이썬 라이브러리 설치 !pip install -q accelerate==0.21.0 peft==0.4.0 bitsandbytes==0.40.2 transformers==4.31.0 trl==0.4.7 accelerate==0.21.0: Hugging F.. 2024. 1. 30. 이전 1 다음 728x90