본문 바로가기
728x90

Transformers5

Attention Mechanism 이란? - (1) 어텐션이란? 풀고자 하는 Task의 핵심이 되는 정보를 찹아서 집중한다! 주의 주목, 관심 흥미, 뉴진스 어텐션! 등 다양한 뜻으로 쓰이고 있습니다. 자연어 처리 NLP 분야의 혁신으로 이끈 논문 All you need is attention 이란 논문을 다들 읽어보셨을거라고 생각합니다. Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder thr.. 2024. 3. 4.
LoRA+: Efficient Low Rank Adaptationof Large Models 짧은 논문리뷰 안녕하세요 Simon 입니다. NLP LLM 논문을 읽다보면 방대한 양에 지칠 때가 있는데요. 과연 이 논문 을 다 읽더라도 나에게 명확하게 인사이트를 줄 수 있을까? 란 생각이 항상 듭니다. 고효율은 아니라고 생각되어서, 이제 제가 필요한 인사이트가 아니라면? 과감하게 Abstrack 정도와 필수 개념만 보고 요약을 하려고 합니다. 아마 비슷하게 생각하실거라고 생각합니다. 오늘 리뷰해드릴 논문은 LoRA+ 튜닝 의 기존의 방법론보다 더 성능을 개선시키는 LoRA+ 라는 논문 입니다. LoRA+: Efficient Low Rank Adaptation of Large Models In this paper, we show that Low Rank Adaptation (LoRA) as originally in.. 2024. 2. 26.
Fine-tune Mixtral 8x7B (MoE) on Custom Data 코드 리뷰 안녕하세요 Simon 입니다. 오늘은 조금 색다르게 코드 리뷰를 해볼 생각입니다. 작년 말 MoE 전문가 네트워킹 라우팅 방식의 트랜스포머 기반의 MoE 를 리뷰해드린적 있는데 이게 성능도 좋고 실제로, 많이 보이고 있습니다. 우연히 유투브를 보다가 가볍게 커스텀데이터를 파인튜닝 할 수 있는 코드를 찾았고 이에 관련하여 리뷰를 해보겠습니다. Fine-tune Mixtral 8x7B (MoE) on Custom Data - Step by Step Guide !pip install transformers trl accelerate torch bitsandbytes peft datasets -qU !pip install flash-attn --no-build-isolation from datasets impo.. 2024. 2. 13.
포브스가 선정한 2024년도 AI 예측 10가지 안녕하세요 Simon 입니다. 2024년 새해를 맞아 AI 칼럼니스트 롭 토우(Rob Toews)가 포브스지에 기고한 '2024년 AI 예측 10가지(10 AI Predictions for 2024)' 글을 소개합니다. 1. Nvidia's Cloud Ambitions ( 엔비디아 클라우드의 야망) GPU로 주로 알려진 엔비디아는 클라우드 제공업체가 되기 위한 노력을 강화할 것으로 예측됩니다. 이러한 움직임은 아마존 웹 서비스, 마이크로소프트 애저, 구글 클라우드 플랫폼과 같은 클라우드 회사들이 자체 AI 칩을 개발함에 따라 이들에 대한 의존도를 줄이기 위한 전략적 변화로 보입니다. 엔비디아의 DGX 클라우드는 이 방향으로의 첫 걸음이며, 회사는 자체 데이터 센터를 설립하거나 코어위브와 같은 클라우드 제.. 2024. 1. 2.
MoE : Mixture of Experts Explained 는 무엇이길래 열광인가? 안녕하세요 Simon 입니다. 이번 포스팅할 게시물은 차기 Transformers 기반의 AI 생태계를 변화시킬 수 있을지 집중이 되고있는 MoE에 대해서 알아보겠습니다. 모든 게시물은 Hugging Face 에 소개된 게시물을 토대로 작성되었습니다. https://huggingface.co/blog/moe#what-is-a-mixture-of-experts-moe Mixture of Experts Explained Mixture of Experts Explained With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI commun.. 2023. 12. 18.
728x90