728x90 Mixtral2 Fine-tune Mixtral 8x7B (MoE) on Custom Data 코드 리뷰 안녕하세요 Simon 입니다. 오늘은 조금 색다르게 코드 리뷰를 해볼 생각입니다. 작년 말 MoE 전문가 네트워킹 라우팅 방식의 트랜스포머 기반의 MoE 를 리뷰해드린적 있는데 이게 성능도 좋고 실제로, 많이 보이고 있습니다. 우연히 유투브를 보다가 가볍게 커스텀데이터를 파인튜닝 할 수 있는 코드를 찾았고 이에 관련하여 리뷰를 해보겠습니다. Fine-tune Mixtral 8x7B (MoE) on Custom Data - Step by Step Guide !pip install transformers trl accelerate torch bitsandbytes peft datasets -qU !pip install flash-attn --no-build-isolation from datasets impo.. 2024. 2. 13. MoE : Mixture of Experts Explained 는 무엇이길래 열광인가? 안녕하세요 Simon 입니다. 이번 포스팅할 게시물은 차기 Transformers 기반의 AI 생태계를 변화시킬 수 있을지 집중이 되고있는 MoE에 대해서 알아보겠습니다. 모든 게시물은 Hugging Face 에 소개된 게시물을 토대로 작성되었습니다. https://huggingface.co/blog/moe#what-is-a-mixture-of-experts-moe Mixture of Experts Explained Mixture of Experts Explained With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI commun.. 2023. 12. 18. 이전 1 다음 728x90 반응형