본문 바로가기
728x90

AI/Paper Review25

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 논문 리뷰 안녕하세요 Acorn입니다. 오늘 리뷰할 논문은 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits입니다. Geeknews에서도 소개되었고, 유튜버 조코딩님께서도 라이브에서 언급했던 만큼 제법 이슈가 있고, 엣지 디바이스에서 LLM을 이용하여 서비스를 이용하고자 하는 사람들에게는 유용한 내용인 것 같아 소개해봅니다. 링크 https://news.hada.io/topic?id=13573 1비트 LLM 시대: 비용 효율적인 컴퓨팅을 위한 삼진 파라미터 | GeekNews 1비트 대형 언어 모델의 시대: 모든 대형 언어 모델은 1.58비트에 있다최근 연구인 BitNet은 1비트 대형 언어 모델(LLMs)의 새로운 시대를 열고 있음.이 연구에서는.. 2024. 3. 4.
Large Language Models for Data Annotation: A Survey 논문 리뷰 안녕하세요 Acorn입니다. 안녕하세요 오늘 소개해드릴 논문 리뷰는 Large Language Models for Data Annotation: A Survey 입니다. 데이터 주석에 대한 다양한 관점에서 조사가 이루어졌고, 각 분야에 대한 최신 연구 동향을 소개해주는 논문입니다. 배경색은 의미를 내포하고 있습니다! 파란 배경 : 중요하다 생각하는 부분 빨간 배경 : 내 의견이 반영된 부분 논문 링크 : https://arxiv.org/abs/2402.13446 Abstract 데이터 주석은 머신러닝 모델의 성능을 향상시키기 위해 필수적인 과정입니다. 그러나 이 작업은 시간과 비용을 많이 소모합니다. 그렇기에 최신 LLM 모델인 GPT-4를 사용하여 자동화 하는 많은 방법론들이 탄생하고 있습니다. 이 백.. 2024. 2. 29.
Nemotron-4 15B Technical Report 논문 리뷰 안녕하세요 오늘 소개해드릴 논문 리뷰는 Nvidia 의 오픈소스 언어모델 Nemotron-4 15B 입니다. 기존의 엔비디아도 오픈소스 생태계를 위한 언어모델 네모트론을 시리즈별로 발표하기는 했었는데 반응이 그럭저럭이었습니다. 3같은경우 Access 신청을 받아서 써볼수가 있었는데요. 현재 허깅페이스에는 네모트론3가 업로드가 되있긴합니다. nvidia/nemotron-3-8b-base-4k · Hugging Face Nemotron-3-8B-Base-4k Model Overview License The use of this model is governed by the NVIDIA AI Foundation Models Community License Agreement. Description Nemotron.. 2024. 2. 28.
Gemma: Open Models Based on GeminiResearch and Technology 논문 리뷰 Gemma: Introducing new state-of-the-art open models Gemma is a family of lightweight, state\u002Dof\u002Dthe art open models built from the same research and technology used to create the Gemini models. blog.google 안녕하세요 Simon 입니다. 오늘 소개해드릴 논문은 Google 의 새로운 Open Source LLM "Gemma" 입니다. LLaMA 의 영향일까요? 빅테크 기업들도 앞다투어 오픈소스 모델을 공개하고 있는데요. OpenAI 도 조만간 공개할듯합니다. 과연 Gemini 기반의 Gemma 는 어떻게 탄생한것인지 리뷰해보겠습니.. 2024. 2. 27.
LoRA+: Efficient Low Rank Adaptationof Large Models 짧은 논문리뷰 안녕하세요 Simon 입니다. NLP LLM 논문을 읽다보면 방대한 양에 지칠 때가 있는데요. 과연 이 논문 을 다 읽더라도 나에게 명확하게 인사이트를 줄 수 있을까? 란 생각이 항상 듭니다. 고효율은 아니라고 생각되어서, 이제 제가 필요한 인사이트가 아니라면? 과감하게 Abstrack 정도와 필수 개념만 보고 요약을 하려고 합니다. 아마 비슷하게 생각하실거라고 생각합니다. 오늘 리뷰해드릴 논문은 LoRA+ 튜닝 의 기존의 방법론보다 더 성능을 개선시키는 LoRA+ 라는 논문 입니다. LoRA+: Efficient Low Rank Adaptation of Large Models In this paper, we show that Low Rank Adaptation (LoRA) as originally in.. 2024. 2. 26.
SELF-DISCOVER: Large Language Models Self-Compose Reasoning Structures 논문리뷰 Self-Discover: Large Language Models Self-Compose Reasoning Structures We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the task-intrinsic reasoning structures to tackle complex reasoning problems that are challenging for typical prompting methods. Core to the framework is a self-discovery process whe arxiv.org 안녕하세요 Simon 입니다. 오늘은 SELF_DISCOVER 라는 또 한번 CoT를 넘어서는 방법론에 대해.. 2024. 2. 22.
[논문 리뷰] DoRA: Weight-Decomposed Low-Rank Adaptation 논문 링크 : https://arxiv.org/abs/2402.09353 DoRA: Weight-Decomposed Low-Rank Adaptation Among the widely used parameter-efficient finetuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full arxiv.org 현재 주목받는 효과적인 파라미터 최적화 방법인 LoRA는 저순위 분해(low-rank.. 2024. 2. 19.
[논문 리뷰] V-STaR: Training Verifiers for Self-Taught Reasoners 논문 링크 : https://arxiv.org/abs/2402.06457 V-STaR: Training Verifiers for Self-Taught Reasoners Common self-improvement approaches for large language models (LLMs), such as STaR (Zelikman et al., 2022), iteratively fine-tune LLMs on self-generated solutions to improve their problem-solving ability. However, these approaches discard the large amounts arxiv.org 기존 LLM들의 Self-Taught 방법론들은 스스로 생성한 해결책.. 2024. 2. 14.
Corrective Retrieval Augmented Generation 논문 리뷰 안녕하세요 오늘 소개해드릴 논문은 Corrective RAG 라는 주제의 논문 입니다. 사실 설에 링크드인과 트위터 알람에서 자꾸 이 실험에 관련된 게시글이 많이 보였습니다. 아 이거 중요하겠구나 싶어서 오늘 읽고 리뷰를 하게 되었습니다. 언제나 제 논문은 한글 번역 후 요약 정리 중요하게 생각되는 점을 기록하면서 리딩을 하고 있습니다. 참고해주시길 바랍니다. 논문 원본 Corrective Retrieval Augmented Generation Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric kno.. 2024. 2. 13.
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2019년 구글이 발표한 BERT 논문 리뷰입니다. 출처 : https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations fro.. 2024. 2. 13.
Meta-Prompting:Enhancing Language Models with Task-Agnostic Scaffolding 논문 리뷰 안녕하세요 Simon 입니다. 오늘 소개해드릴 논문은 Meta-Prompting 기법 에 관련된 내용입니다. 제 논문은 보통 한글 번역 후 중요하게 보고 느낀점을 표시해두고, 따로 제 생각을 밑에 적는 편이니 유의하고 읽어주시면 감사하겠습니다. Abstrack 이 논문은 "Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding"이라는 제목으로, Mirac Suzgun(스탠포드 대학)과 Adam Tauman Kalai(OpenAI)에 의해 작성되었습니다. 본 연구에서는 언어 모델(LM)의 기능을 향상시키기 위한 효과적인 지지 구조 방법인 메타 프롬프팅을 소개합니다. 이 접근 방식은 단일 LM을 다양한 독립적인 LM 쿼리를 관리하고 .. 2024. 2. 8.
Retrieval-Augmented Generation for Large Language Models: A Survey 논문 리뷰 안녕하세요 Simon 입니다. 오늘은 RAG 의 서베이 관련 논문이 있어서 가져와봤습니다. RAG 기술이 점점 LLM 의 할루시네이션을 개선하기 위한 기술로 자리를 잡고 있고 이곳저곳에서 도입이 되고있고, 텍스트 뿐만아니라 나중에는 멀티모달의 이미지 리트리버 분야도 분명 대두될거 같다는 생각을 종종하고 있습니다. RAG 기술이라도 잘 알고 설명 할 줄 아는 사람이 되고싶어서 위의 논문을 이해해보려고 합니다. Retrieval-Augmented Generation for Large Language Models: A Survey Large Language Models (LLMs) demonstrate significant capabilities but face challenges such as halluci.. 2024. 1. 30.
Honeybee: Locality-enhanced Projector for Multimodal LLM 논문 리뷰 안녕하세요 Simon 입니다 오늘은 Honeybee 라고 KAKAO Brain 에서 개발한 멀티모달 모델에 관련된 논문을 리뷰하려고 합니다. LLM -> MLLM 에 대한 연구가 확실히 활발하게 이루어지고 있는 듯 합니다. HoneyBEE 카카오브레인이 새로운 인공지능 모델 '허니비(Honeybee)'를 발표, 이미지와 텍스트 입력이 가능한 기능을 갖춤. '허니비'는 이미지와 텍스트를 이해하고 답변하는 능력이 있으며, MME 벤치마크에서 높은 점수를 획득. 카카오브레인은 허니비를 교육 및 학습 보조 도구로 활용할 계획이며, 지속적인 연구와 개발을 진행할 예정임. Honeybee: Locality-enhanced Projector for Multimodal LLM In Multimodal Large Lan.. 2024. 1. 23.
Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (2) https://wiz-tech.tistory.com/60 Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (1) 안녕하세요 Simon 입니다. 오늘은 프롬프트 관련 논문에 대해서 리뷰를 하려고 합니다. 좋은 프롬프트를 만드는 26가지 원칙이라고 하는데요 위 논문 리뷰를 통해 보다 GPT를 잘 쓰고 Insight 를 많이 wiz-tech.tistory.com 위 내용을 참조해주시길 바랍니다. 실험 부분부터 다시 리뷰하겠습니다. Experiments 1. Setup and Implementation Details https://github.com/VILA-Lab/ATLAS GitHub - VILA-Lab.. 2024. 1. 15.
Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (1) 안녕하세요 Simon 입니다. 오늘은 프롬프트 관련 논문에 대해서 리뷰를 하려고 합니다. 좋은 프롬프트를 만드는 26가지 원칙이라고 하는데요 위 논문 리뷰를 통해 보다 GPT를 잘 쓰고 Insight 를 많이 얻어갔으면 합니다. https://arxiv.org/abs/2312.16171 Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the und.. 2024. 1. 15.
Switch Transformers: Scaling to Trillion Parameter Modelswith Simple and Efficient Sparsity 논문 리뷰 안녕하세요 Simon 입니다. 오늘 리뷰해볼 논문은 MoE 모델의 아키텍처인 Switch Transformers 입니다. 사실 제가 딥러닝을 배우기전에 나왔던 논문인데 신기하게 다 언젠가는 빛을 바라는 순간이 오는거 같습니다. Abstrack 스위치 트랜스포머는 전통적인 딥러닝 모델의 한계를 극복하기 위해 개발된 새로운 접근 방식입니다. 기존 모델들이 모든 입력에 대해 동일한 매개변수를 사용하는 반면, 스위치 트랜스포머는 각 입력 예제마다 다른 매개변수를 선택하는 혼합(전문가 혼합) 모델을 채택합니다. 이 방식은 매개변수의 수를 크게 늘리면서도 계산 비용을 일정하게 유지합니다. 그러나 이러한 모델은 복잡성, 통신 비용, 그리고 훈련의 불안정성과 같은 문제들을 가지고 있었습니다. 스위치 트랜스포머는 이러한.. 2024. 1. 8.
SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 논문리뷰 안녕하세요 Simon입니다. 오늘 소개해드릴 논문은 SOLAR 10.7B에 관한 논문입니다. 지금 FastCampus에서 Upstage의 파인튜닝 노하우 강의를 듣고 있는데 김성훈 CEO가 소개해준 내용과 연관해서 리뷰를 해보겠습니다. 강의를 수강하는데 계속 웃음꽃이 떠나질 않는 거 보면 확실히 현재 제일 hot 한 최전선에 있는 분야에서 최고가 된 만큼 얼마나 기쁠까 생각이 들긴 합니다. LLM의 평가지표는 여러가지가 있습니다. H4는 4개의 데이터셋으로 평가한다는 의미인데요, 현재 H7 까지도 증가해서 평가를 받고 있습니다. 그말은 즉슨 H4에서의 벤치마크가 높은데 H7에서는 떨어진다? 이 말은 모델이 그만큼 일반화가 되지 않은 모델이라고 생각해 볼 수 있습니다. LLM 평가지표에 대한 글은 제가 다.. 2024. 1. 4.
RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models 논문 리뷰 안녕하세요 Simon 입니다. 오늘 소개해드릴 논문은 RAG 관련 논문입니다. 아무래도 RAG가 이제 많이 알려지기도 했고 LLM 의 필수요소로 자리잡고 있습니다. 저희도 일단 RAG 자체는 완벽히 이해하고 구현을 하자 느낌이 강해서 새로운 논문을 리딩한번 해보겠습니다. Abstract 위 논문은 할루시네이션을 줄이기위해 RAG 검색증강 생성을 사용하였지만 여전히 검색내용과 모순되거나 뒷받침 되지 않는 주장을 할 수 있다는 것을 개선하기 위해 RAGTruth라는 코퍼스를 제시합니다. 연구는 다른 LLM들에서 환각 빈도를 비교하고, 기존 환각 탐지 방법의 효과를 평가합니다. 또한, 고품질 데이터셋을 사용하여 작은 LLM을 미세 조정함으로써, 최신 대규모 모델을 사용하는 기존 방법과 경쟁할 수 있는 환각 탐.. 2024. 1. 3.
SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION 논문 리뷰 오늘 리뷰할 논문은 SELF-RAG:LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION 입니다. https://arxiv.org/pdf/2310.11511.pdf 이 논문은 자체 반성을 통해 정보를 검색하고 생성하는 새로운 프레임워크인 'Self-Reflective Retrieval-Augmented Generation (SELF-RAG)'를 소개하고 있습니다. 이 시스템은 대규모 언어 모델의 품질과 사실성을 향상시키기 위해 특별한 토큰, 즉 '반성 토큰'을 사용하여 검색 및 자체 평가를 수행합니다. SELF-RAG는 주어진 작업에 맞게 모델의 행동을 조정할 수 있도록 하여 다양한 작업 요구 사항에 맞춤화된 동작을 가능하게하며 다양한.. 2023. 12. 29.
A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 논문 리뷰 - (2) 안녕하세요 Simon 입니다. 오늘은 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 논문 리뷰 - (2) 입니다. https://wiz-tech.tistory.com/36 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 논문 리뷰 -(1) 개발자에게 유용한 Prompt 안녕하세요 Simon 입니다 오늘 소개해드릴 논문은 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 라는 논문입니다. 이 논문의 배경은 반더빌트 대학에서 GPT를 사용하면서 녹아낸 프롬프트 엔 wiz-tech.tistor.. 2023. 12. 29.
A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 논문 리뷰 -(1) 개발자에게 유용한 Prompt 안녕하세요 Simon 입니다 오늘 소개해드릴 논문은 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 라는 논문입니다. 이 논문의 배경은 반더빌트 대학에서 GPT를 사용하면서 녹아낸 프롬프트 엔지니어링 팁들이 담겨있습니다. Prompt 엔지니어링에 관심이 있으신분들은 위 강의를 꼭 들어보시는 것을 추천을 드립니다. 또 수료하면 자격증이 나오니 그거에 관련해서 링크드인에 자격증을 업로드 할 수 있습니다. 이 외에도 뤼튼에서 진행하고 있는 프롬프톤 WCC 자격증 강의도 수강하시면 좋습니다. Abstrack 이 논문은 대규모 언어 모델(Large Language Models, LLMs)과의 대화에서 사용되는 프롬프트 엔지니어링 기술을 패턴.. 2023. 12. 20.
MoE : Mixture of Experts Explained 는 무엇이길래 열광인가? 안녕하세요 Simon 입니다. 이번 포스팅할 게시물은 차기 Transformers 기반의 AI 생태계를 변화시킬 수 있을지 집중이 되고있는 MoE에 대해서 알아보겠습니다. 모든 게시물은 Hugging Face 에 소개된 게시물을 토대로 작성되었습니다. https://huggingface.co/blog/moe#what-is-a-mixture-of-experts-moe Mixture of Experts Explained Mixture of Experts Explained With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI commun.. 2023. 12. 18.
DeepPCR : Parallelizing Sequential Operations in Neural Networks 리뷰 안녕하세요 Simon 입니다. 애플이 AI 쪽으로 많이 약하다는 평가가 항상 있는데 슬슬 시동을 거는듯 해보입니다. DeepPCR 이라고 신경망관련해서 기술 개선을 한 논문을 발표를 해서 가져와봤습니다. 애플 공식 홈페이지 머신러닝 리서처에도 올라갔습니다. Introduction 오늘날의 머신러닝과 딥러닝 연구는 복잡성이 증가함에 따라 효율적인 계산 방법에 대한 필요성이 점점 더 커지고 있습니다. 이러한 맥락에서 최근 발표된 논문 "DeepPCR: Parallelizing Sequential Operations in Neural Networks"는 주목할 만합니다. 이 논문은 신경망에서 전통적으로 순차적으로 처리되던 연산을 병렬화하는 새로운 알고리즘, DeepPCR을 제안합니다. Abstract Deep.. 2023. 12. 18.
GPT-4 Vision 을 활용한 자율주행 안녕하세요 Simon 입니다. 여러 AI 관련 뉴스레터를 받아보고 있는데 재밌어보이길래 한번 들어가서 봤습니다. https://arxiv.org/pdf/2311.05332.pdf On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving 이라는 논문이고 GPT-4 Vision 모델을 활용해서 자율주행에 적용해본 사례에 대해 탐구합니다. 자율 주행, GPT-4V가 바꾼다? 자율 주행은 자동차 산업의 미래로, 주변 환경을 정확하게 인식하고 적절한 의사 결정을 내리는 것이 핵심입니다. 이를 위해, 최근 중국 연구진은 'GPT-4V'라는 첨단 비전-언어 모델을 자율 주행에 적용하는 실험을 진행했.. 2023. 11. 22.
Large Language Models Understand and Can be Enhanced by Emotional Stimuli 논문 리뷰 최근 사장님께서 보내주신 "EmotionPrompt" 관련 기사를 읽고, 해당 논문에 대해 간단하게 소개하려고 합니다. Large Language Models Understand and Can be Enhanced by Emotional Stimuli 라는 제목으로, LLM 분야에서 감정 지능이라는 새로운 차원을 탐구함으로써 기술과 인간의 상호작용을 풍부하게 만드는 데 크게 기여하며, 특히 Emotion Prompt라는 혁신적인 접근 방식을 통해 대규모 언어 모델들이 감정을 어떻게 이해하고 반응하는지에 대해 소개합니다. 1. Instruction 이 논문에서 연구자들은 감정 지능을 “감정이 담긴 정보를 적절히 해석하고 관리하는 능력”으로 정의하며, 이를 통해 문제 해결부터 행동 조절에 이르기까지 다양한 .. 2023. 11. 16.
728x90