안녕하세요 Simon 입니다. 오늘은 SELF_DISCOVER 라는 또 한번 CoT를 넘어서는 방법론에 대해서 논문 리뷰를 해보겠습니다.
간단하게 Youtube 에서도 요약 설명을 잘해놓으셔서 보시면 좋을듯 합니다.
Abstrack
우리는 LLM이 전형적인 프롬프팅 방법으로는 해결하기 어려운 복잡한 추론 문제를 다루기 위해 과제 본질적인 추론 구조를 스스로 발견할 수 있는 일반적인 프레임워크인 SELF-DISCOVER를 소개합니다. 이 프레임워크의 핵심은 LLM이 비판적 사고와 단계별 사고와 같은 여러 원자적 추론 모듈을 선택하고, 이를 명시적인 추론 구조로 구성하여 LLM이 디코딩하는 동안 따르도록 하는 자기 발견 과정입니다. SELF-DISCOVER는 BigBench-Hard, 지상 에이전트 추론, 그리고 MATH와 같은 도전적인 추론 벤치마크에서 GPT-4와 PaLM 2의 성능을 Chain of Thought(CoT)와 비교하여 최대 32%까지 크게 향상시킵니다. 또한, SELF-DISCOVER는 CoT-Self-Consistency와 같은 추론 집약적 방법보다 20% 이상 뛰어나며, 추론 계산은 10-40배 적게 필요합니다. 마지막으로, 자기 발견된 추론 구조는 PaLM 2-L부터 GPT-4, 그리고 GPT-4부터 Llama2에 이르기까지 모델 패밀리 전반에 걸쳐 보편적으로 적용 가능하며, 인간 추론 패턴과 공통점을 공유한다는 것을 보여줍니다.
1. Introduce
이 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 새로운 프레임워크인 SELF-DISCOVER를 소개합니다. SELF-DISCOVER는 인간의 추론 방식에서 영감을 받아, LLM이 다양한 원자적 추론 모듈(예: 비판적 사고, 단계별 사고)을 선택하고 이를 결합하여 과제에 특화된 명시적인 추론 구조를 자체적으로 발견하고 따르도록 합니다. 이 접근 방식은 기존의 프롬프팅 방법들이 각기 다른 과제를 해결하는 데 있어 가지는 한계를 극복하고자 합니다.
SELF-DISCOVER는 두 단계로 구성됩니다. 첫 번째 단계에서는 LLM이 과제에 적합한 추론 구조를 자체적으로 발견하고, 두 번째 단계에서는 이 구조를 사용하여 과제의 인스턴스를 해결합니다. 이 프레임워크는 CoT(사고의 연쇄) 방식과 같은 기존 방법들에 비해 계산 효율성이 뛰어나며, 추론 과정이 더 해석 가능하다는 장점이 있습니다.
SELF-DISCOVER는 Big Bench-Hard, Thinking for Doing, MATH 등 25개의 도전적인 추론 과제에서 테스트되었으며, 대부분의 과제에서 기존 방법들을 능가하는 성능을 보였습니다. 특히, 세계 지식이 필요한 과제와 알고리즘 과제에서 높은 성능 향상을 보였으며, 자체 발견된 추론 구조는 다양한 LLM 모델 간에도 전이 가능하고 인간의 추론 패턴과 공통점을 공유한다는 점이 확인되었습니다.
이 연구는 LLM을 사용하여 복잡한 문제를 해결하기 위한 구조화된 추론에 대한 더 많은 연구를 장려하며, SELF-DISCOVER 프레임워크가 LLM의 추론 능력을 향상시키는 데 중요한 역할을 할 수 있음을 보여줍니다.
Direct Answer : 바로질문을 하는것
Chain-of-Throught : 특정한 사고의 흐름을 담아서 질문을 한다.
Self-Discover Reasoning: 질문이 주어지면 생각하는 구조에 대해 생각 -> 생각하는 방식을 가지고와서 질문을 한다 ? 라는 구조
BBH : 인간이 답변하는것보다 좋지 않은 데이터셋 LLM 에 약한 데이터셋인데 , 대체적으로 높아짐
2. Self-Discovering Reasoning Structures for Problem-Solving
문제 해결을 위한 추론 구조를 자체 발견하는 방법에 대해 설명합니다. 인간이 새로운 문제에 직면했을 때 이전 경험에서 얻은 지식과 기술을 내부적으로 검색하고, 관련 지식과 기술을 적용하여 문제를 해결하는 방식에서 영감을 받아 SELF-DISCOVER를 설계했습니다. SELF-DISCOVER는 두 단계로 구성되어 있으며, 각 단계는 문제 해결을 위한 고수준의 추론 모듈(예: "비판적 사고 사용", "단계별로 생각하기")을 사용하여 과제에 대한 내재적인 추론 구조를 발견하고, 이를 사용하여 과제의 인스턴스를 해결하는 과정을 포함합니다.
2.1 Stage 1: Self-Discover Task-Specific Structures
첫 번째 단계는 세 가지 행동으로 구성됩니다:
1) SELECT, 과제 해결에 유용한 추론 모듈을 선택합니다.
2) ADAPT, 선택된 추론 모듈의 설명을 과제에 더 구체적으로 재구성합니다.
3) IMPLEMENT, 재구성된 추론 설명을 구조화된 실행 가능한 계획으로 구현하여 과제를 해결할 수 있도록 합니다.
이 과정은 모델이 과제 예시를 바탕으로 유용한 모듈을 선택하고, 이를 과제에 맞게 조정하여, 최종적으로 과제를 해결하기 위한 구조를 구현하는 데 도움을 줍니다.
2.1 Stage 2: Tackle Tasks Using Discovered Structures
세 단계를 거친 후, 우리는 과제를 해결하기 위해 특별히 조정된 구현된 추론 구조를 가지게 됩니다. 그런 다음 이 추론 구조를 과제의 모든 인스턴스에 추가하고 모델에게 추론 구조를 따라 답을 생성하도록 요청함으로써 과제를 해결할 수 있습니다.
SELF-DISCOVER는 인간의 문제 해결 방식을 모방하여, LLM이 과제에 대한 내재적인 추론 구조를 자체적으로 발견하고 이를 사용하여 문제를 해결할 수 있도록 하는 프로세스를 제안합니다. 이 접근 방식은 과제 해결을 위한 추론 과정을 더 구조화하고 해석 가능하게 만들며, LLM의 문제 해결 능력을 향상시키는 데 기여할 수 있습니다
3. Experiment Setup
3.1. Tasks
우리는 LLM에게 여전히 도전적인 다양한 추론 벤치마크에 초점을 맞춥니다: BIG-Bench Hard (BBH)는 BIG-Bench에서 선별된 23개의 도전적인 과제를 포함하며, 이 과제들은 다음 4가지 범주로 나뉩니다:
1) 알고리즘 및 다단계 산술 추론,
2) 자연어 이해,
3) 세계 지식의 사용,
4) 다국어 지식 및 추론.
또한, 모델이 정신 상태 추론을 활용하여 수행할 행동을 결정해야 하는 'Thinking for Doing (T4D)'이라는 실제 사회 에이전트 추론 과제를 테스트합니다. 여기서 GPT-4는 CoT를 사용할 때 약 50%의 성능을 보입니다. 마지막으로, MATH 테스트 세트에서 200개의 예시를 부분 샘플링하고, MATH 과제의 복잡성에 적응하기 위해 한 번의 시연을 통해 인스턴스 수준의 추론 구조를 생성합니다. 평가를 위해, 우리는 BBH, T4D, MATH에서 모델 성능을 측정하기 위해 정확도를 사용합니다(자세한 내용은 부록 B에서 찾을 수 있습니다).
-> 결국 언어모델이 이해좋게 이해를 어떻게 될 것인가
Select 에서 seed를 각각 평가를 한다.
Adapt 는 위에서 받은 모듈을 구체화
Implement 는 구조화를 한다.
3.1. Models
우리는 여러 최신 LLM을 사용합니다: GPT-4 (gpt-4-turbopreview) GPT-3.5-turbo (ChatGPT) 지시어 튜닝된 PaLM 2-L , 그리고 오픈소스 LLM Llama2-70B
3.3. Baselines
우리는 LLM 추론을 위한 다른 제로샷 프롬프팅 방법과 SELF-DISCOVER를 비교합니다:
- Direct Prompting : 모델이 중간 추론 단계 없이 직접 답을 생성합니다.
- CoT : 모델이 최종 답으로 이어지는 추론 과정을 생성하도록 프롬프팅됩니다.
- Plan-and-Solve : 모델이 먼저 계획을 생성한 다음 문제를 해결하도록 프롬프팅됩니다. SELF-DISCOVER는 원자적 추론 모듈에 추론 구조를 기반으로 하고 명시적인 키-값 추론 구조를 따르도록 디코딩을 프롬프팅함으로써 차별화됩니다.
또한, SELF-DISCOVER에 전달하는 원시 시드 추론 모듈(RM)을 사용하는 다른 기준선을 고려합니다. 우리는 다음 방법의 성능과 일부 과제에서의 추론 호출 효율성을 비교합니다:
- CoT-Self-Consistency : 우리는 CoT와 함께 LLM에서 여러 출력을 샘플링하고 답변을 집계하여 최종 답변을 얻습니다. 반복적인 쿼리의 비용 때문에 일부 과제에서 이 방법을 비교합니다.
- Majority voting of each RM : 우리는 모델에게 각 RM을 추가하여 과제를 해결하도록 프롬프팅하고 모든 답변의 다수결을 사용하여 최종 답변을 얻습니다. 우리는 여러 RM을 일관된 추론 구조로 통합하는 것이 각 RM을 적용하고 사후에 그것들을 앙상블하기 위해 다수결을 사용하는 것보다 유리한지를 검토합니다.
- Best of each RM : 이 방법은 우리가 오라클 레이블에 접근할 수 있다고 가정하고 각 RM을 적용할 때 가장 높은 정확도를 사용합니다. 우리는 SELF-DISCOVER가 새로운 과제에 어떤 RM을 사용해야 하는지 완벽한 사전 지식에 의존하는 방법과 경쟁하는지를 검토합니다.
구글의 PaLM2-L, GPT-4 에서 Self-Discover를 사용하니깐 제일 높은 벤치마크 성능이 나왔다.
4. Result
4.1. Does SELF-DISCOVER Improve LLM Reasoning?
전반적으로, SELF-DISCOVER는 다양한 추론 과제 세트에서 PaLM 2-L과 GPT-4의 추론을 개선합니다. 표 1은 PaLM 2-L과 GPT-4를 사용한 BBH, T4D, MATH의 복잡한 추론 과제에 대한 전체 결과를 보여줍니다. SELF-DISCOVER는 직접 프롬프팅, CoT, 그리고 Plan-and-Solve(PS)를 포함한 기준선과 비교됩니다.
BBH의 23개 과제에 대해, SELF-DISCOVER는 PaLM 2-L에서 Chain-of-Thought와 Plan-and-Solve에 비해 각각 7%와 6%의 절대적인 개선을 달성합니다. GPT-4에 적용될 때 비슷한 이득(6%와 8%)이 관찰됩니다. PaLM 2-L의 직접 답변과 CoT에 대한 각 과제의 개선 결과는 그림 1에서 보여주며, SELF-DISCOVER가 20/24 과제 이상에서 그들을 능가함을 발견합니다.
T4D에서는 SELF-DISCOVER가 PaLM 2-L(GPT-4)에서 모든 기준선에 비해 ≥ 27%(32%)의 절대적 개선을 달성합니다. SELF-DISCOVER는 PaLM 2-L과 GPT-4에서 각각 69%와 85%의 정확도를 달성하여, 전문가 설계 추론 구조를 사용하는 이전 SoTA 프롬프팅 방법보다 현저히 우수합니다.
MATH에서는 SELF-DISCOVER가 기준선에 비해 PaLM 2-L(GPT-4)에서 1%-7%(2%-3%)의 적당한 이득을 관찰합니다. 오류 분석을 통해, SELF-DISCOVER에 의해 생성된 PaLM 2-L의 추론 구조가 87.5%의 시간 동안 정확함을 발견했습니다.
4.2. Which Types of Problems Do SELF-DISCOVER Help the Most?
SELF-DISCOVER는 다양한 세계 지식이 필요한 과제에서 가장 잘 수행됩니다. 그림 4는 우리가 테스트한 추론 과제의 4가지 범주에서 SELF-DISCOVER가 직접 답변과 CoT에 비해 평균적으로 얼마나 개선되었는지를 보여줍니다. SELF-DISCOVER는 모든 범주에서 이 두 기준선을 개선하지만, 특히 스포츠 이해, 영화 추천, 유적지 이름과 같은 세계 지식이 필요한 과제에서 특히 그렇습니다.
4.3. How Efficient is SELF-DISCOVER?
SELF-DISCOVER는 자체 일관성이나 다수결 투표에 비해 10-40배 적은 추론 컴퓨터를 요구하면서 더 나은 성능을 달성합니다. 그림 5는 GPT-4를 사용하여 각 방법이 인스턴스당 요구하는 평균 정확도와 추론 호출 수를 보여줍니다. 정확도 측면에서 SELF-DISCOVER는 CoT-자체 일관성과 각 RM을 적용하는 다수결 투표와 같이 반복된 추론 호출이 필요한 다른 기준선을 능가합니다.
4.4. Qualitative Examples
그림 6에서 PaLM 2-L을 사용한 다양한 추론 과제에 대한 모델 발견 구조의 예시를 보여줍니다. 각 구조는 과제에 특별히 적응되었으며, 여러 추론 모듈을 통합하고 과제를 해결하는 방법에 대한 통찰력을 제공합니다. 또한, CoT, Plan-and-Solve, 그리고 SELF-DISCOVER를 따르는 추론 과정의 예시를 비교하는 예시가 그림 7에 나타납니다. CoT와 Plan-and-Solve는 초기에 잘못된 주장을 하여 잘못된 답에 도달하는 반면, SELF-DISCOVER의 구조를 따르면 모델이 논리적 결론을 생성하고 올바른 답에 도달합니다.
5. Deep Diving Into Self-Discovered Reasoning Structures
실험 결과가 다양한 추론 과제에서 SELF-DISCOVER의 효과와 효율성을 보여준 후, 이 섹션에서는 SELF-DISCOVER의 모든 행동이 필요한지, 그리고 자체 발견된 구조가 어떤 다른 이점을 가져올 수 있는지에 대해 추가 분석합니다.
5.1. Importance of SELF-DISCOVER Actions
SELECT, ADAPT, IMPLEMENT의 세 가지 행동에 대한 제거 연구를 수행하여 SELF-DISCOVER 행동의 효과를 분석합니다. 그림 8은 GPT-4를 사용하여 SELECT(-S)만 적용하거나 SELECT와 ADAPT(-SA)를 적용하거나 세 가지 행동 모두를 적용했을 때 4가지 추론 과제에서의 결과를 보여줍니다. 각 단계마다 모델의 제로샷 추론 능력이 과제에 걸쳐 일관되게 향상되어, 세 가지 행동 모두 유익하다는 것을 나타냅니다. 특히, 세 가지 행동 SAI 후에는 추론 구조가 과제별로 특화되어 추론 과제 해결에 가장 큰 이득을 가져옵니다.
5.2. Towards Universality of Discovered Reasoning Structures
PaLM 2-L에 의해 발견된 구조를 GPT-4에 적용
먼저 PaLM 2-L 모델을 사용하여 4가지 추론 과제의 추론 구조를 발견합니다. 그런 다음, 결과적으로 발견된 추론 구조를 GPT-4의 디코딩에 grounding으로 적용합니다. 우리는 우리의 접근법을 OPRO와 비교하는데, OPRO는 최적화를 통해 제로샷 프롬프트를 발견했습니다. 우리는 각 과제에 대해 PaLM 2-L을 사용하여 최적화된 OPRO 프롬프트를 GPT-4에 적용하고 동일한 추론 과제에서 비교합니다. 그림 9는 SELF-DISCOVER가 OPRO에 비해 3개의 4개 과제에서 우수함을 보여줍니다. OPRO가 20%의 데이터를 사용하여 프롬프트를 최적화했음에도 불구하고, SELF-DISCOVER는 제로샷 방식으로 수행되어, 우리 방법의 효율성과 발견된 추론 구조의 보편성을 입증합니다.
GPT-4에 의해 발견된 구조를 Llama2와 ChatGPT에 적용
LLM 간의 전이 가능성 성능에 동기를 받아, 우리는 LLM에서 자체 발견된 추론 구조가 구조를 스스로 만들기 어려운 더 작은 LM의 추론을 향상시킬 수 있는지 추가로 조사합니다. 우리는 GPT-4를 사용하여 과제별 추론 구조를 발견하고, 그 구조를 BBH의 두 하위 집합 과제에서 open-sourced Llama2-70B 및 GPT-3.5-turbo(ChatGPT)의 디코딩에 적용합니다. 우리는 자체 발견된 구조를 사용하는 Llama2(52%)가 제로샷에서 CoT(42%)를 능가하고, GPT-3.5-turbo(56%)가 기하학에서 CoT(51%)를 능가함을 발견합니다.
6. Related Work
6.1. Prompting Methods
최근 대규모 언어 모델(LLMs) 분야의 발전은 few-shot및 지시(instruction) 프롬프팅 기술의 다양성을 증가시켰습니다. 이러한 기술에는 사고의 연쇄, 최소에서 최대로(Least-to-most prompting), 분해된 프롬프팅(Decomposed prompting), 재구성(Reframing), 도와줘서 생각하기(Help Me Think Prompting), 한 걸음 물러서기(Stepback Prompting) 및 검색 기반 접근법인 사고의 나무(Tree-of-Thought, ToT), 사고의 그래프(Graph-of-Thought)(, 분기-해결-병합(Branch-solve-merge)및 RAP 등이 포함됩니다. 각 프롬프팅 방법은 성공적인 적용 분야에 따라 강점과 약점을 가지고 있습니다. SELF-DISCOVER는 제안된 자체 발견 메커니즘을 통해 다양한 프롬프팅 방법을 자체적으로 구성하는 방법을 제공함으로써 프롬프팅 문헌에서 빠진 부분을 제시합니다. SELF-DISCOVER에서 프롬프팅 방법을 구성하는 것은 프로그래밍 문헌에서 for 루프, if/else 조건 등과 같은 다양한 기본 빌딩 블록을 사용하여 프로그램을 작성하는 것과 유사합니다.
6.2. Reasoning and Planning
GSM8K, BigBench 등 다양한 추론 및 계획 벤치마크의 개발과 함께, 모델 성능을 향상시키기 위한 여러 방법이 제안되었습니다. 이러한 방법들은 종종 데이터셋과 관련된 과제의 추론 구조를 모방하는 특정 추론 구조를 유도합니다. 예를 들어, 사고의 연쇄(Chain of thought)와 스크래치패드(Scratchpad)는 추론 질문과 관련된 설명을 생성하도록 유도합니다. 마찬가지로, 다른 방법들은 질문 요약, 질문 분해, 프로그램 생성등과 같은 특정 추론 구조를 유도합니다. 그러나 실제 세계 사용자 트래픽에서는 다양한 추론 구조를 포괄하는 다양한 쿼리가 있을 수 있습니다. SELF-DISCOVER는 모델이 여러 추론 접근 방식을 자체적으로 구성하여 구조로 결합할 수 있도록 하여, 과제 레이블에 접근할 필요 없이 다양한 추론 구조를 다룰 수 있습니다. SkiC 전략 수립,반복적 질의를 통한 계획 수립과 같은 LLM이 컨텍스트 내에서 기술을 결합하는 것을 탐색하는 관련 작업이 있지만, 이러한 작업들은 인간이 기술과 추론 계획을 주석 처리해야 하는 반면, SELF-DISCOVER는 LLM의 메타-태스크 추론 능력을 활용한 확장 가능한 해결책을 제공합니다.
-> 다중, 복수의 쿼리에 대한 해결도 해줄 수 있을것으로 생각이든다
7. Conclusion
우리는 모델이 일반적인 문제 해결 기술의 시드 세트에서 어떤 과제든지 추론 구조를 자체 발견할 수 있는 효율적이고 성능이 뛰어난 프레임워크인 SELF-DISCOVER를 소개합니다. 여러 LLM에서 도전적인 추론 벤치마크에 대해 최대 30%까지 극적인 개선을 관찰했습니다. SELF-DISCOVER의 제거 연구는 구성된 추론 구조가 LLM 간에 보편적으로 전이 가능함을 보여줍니다. 전망을 바라보며, 우리는 문제 해결의 경계를 넓히고 인간-AI 협업의 잠재력을 발견하기 위해 LLM의 구조화된 추론에 대해 더 탐구할 것에 대해 흥분됩니다.
'AI > Paper Review' 카테고리의 다른 글
Gemma: Open Models Based on GeminiResearch and Technology 논문 리뷰 (12) | 2024.02.27 |
---|---|
LoRA+: Efficient Low Rank Adaptationof Large Models 짧은 논문리뷰 (5) | 2024.02.26 |
[논문 리뷰] DoRA: Weight-Decomposed Low-Rank Adaptation (67) | 2024.02.19 |
[논문 리뷰] V-STaR: Training Verifiers for Self-Taught Reasoners (58) | 2024.02.14 |
Corrective Retrieval Augmented Generation 논문 리뷰 (2) | 2024.02.13 |