본문 바로가기

728x90

LLaMa5

SELF-DISCOVER: Large Language Models Self-Compose Reasoning Structures 논문리뷰 Self-Discover: Large Language Models Self-Compose Reasoning Structures We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the task-intrinsic reasoning structures to tackle complex reasoning problems that are challenging for typical prompting methods. Core to the framework is a self-discovery process whe arxiv.org 안녕하세요 Simon 입니다. 오늘은 SELF_DISCOVER 라는 또 한번 CoT를 넘어서는 방법론에 대해.. 2024. 2. 22.

Fine-tune Mixtral 8x7B (MoE) on Custom Data 코드 리뷰 안녕하세요 Simon 입니다. 오늘은 조금 색다르게 코드 리뷰를 해볼 생각입니다. 작년 말 MoE 전문가 네트워킹 라우팅 방식의 트랜스포머 기반의 MoE 를 리뷰해드린적 있는데 이게 성능도 좋고 실제로, 많이 보이고 있습니다. 우연히 유투브를 보다가 가볍게 커스텀데이터를 파인튜닝 할 수 있는 코드를 찾았고 이에 관련하여 리뷰를 해보겠습니다. Fine-tune Mixtral 8x7B (MoE) on Custom Data - Step by Step Guide !pip install transformers trl accelerate torch bitsandbytes peft datasets -qU !pip install flash-attn --no-build-isolation from datasets impo.. 2024. 2. 13.

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (2) https://wiz-tech.tistory.com/60 Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (1) 안녕하세요 Simon 입니다. 오늘은 프롬프트 관련 논문에 대해서 리뷰를 하려고 합니다. 좋은 프롬프트를 만드는 26가지 원칙이라고 하는데요 위 논문 리뷰를 통해 보다 GPT를 잘 쓰고 Insight 를 많이 wiz-tech.tistory.com 위 내용을 참조해주시길 바랍니다. 실험 부분부터 다시 리뷰하겠습니다. Experiments 1. Setup and Implementation Details https://github.com/VILA-Lab/ATLAS GitHub - VILA-Lab.. 2024. 1. 15.

2023년에 나온 인공지능 모델들 안녕하세요 Simon 입니다. 오랜만에 글을 쓰는데요 올해도 다 끝나가고 올 한해 인공지능의 눈부신 발전과 함께 저도 이 분야에 일을 하는 사람으로써 바쁘고 정신없는 한해였지 않나 생각합니다. 올 한해를 통계를 할 겸 올 한해를 빛을 낸 모델들을 소개해드릴려고 합니다. https://journal.everypixel.com/2023-the-year-of-ai 2023: The Year of AI Explore the significant AI advancements, impactful partnerships, and legal debates that defined 2023. journal.everypixel.com 위 내용과 Reddit 에서 올 한해의 2023 AI 모델 관련된 내용이 있어서 분야별로 .. 2023. 12. 29.

대규모 언어 모델(Large Language Models, LLMs)에 대한 포괄적 조사 본 내용은 아래 Medium 글을 정리하였습니다. https://cobusgreyling.medium.com/a-comprehensive-survey-of-large-language-models-llms-946a30d9288e 핵심 내용 정리 논문 발표 증가: "대규모 언어 모델"이란 제목이나 초록에 포함된 arXiv 논문의 평균 발표 수가 하루 0.40편에서 8.58편으로 증가 LLM의 원리: 대규모 언어 모델의 진보와 영향에도 불구하고, 그 기본 원리는 아직 잘 탐구되지 않음 오픈 소스 LLM의 역할: Meta의 기여는 중요하며, 오픈 소스 LLM은 확장, 맞춤화 및 성장의 촉매제 역할 LLaMA 모델 활용 연구: 많은 연구자들이 LLaMA 모델을 지시 조정(instruction tuning) 또는 .. 2023. 12. 19.

이전 1 다음

728x90

티스토리툴바