본문 바로가기
AI/Contents

오픈리더보드의 평가지표에 대해

by AI미남홀란드 2024. 1. 4.
728x90

안녕하세요 Simon 입니다.

오늘은 Open LLM Leaderboard 에서 순위를 평가하는 지표에 대해서 자세히 알아보겠습니다.

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

 

Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4

 

huggingface.co

HuggingFace

평가방식(Im-evaluation-harness)

- 질문과 보기를 모델에 입력을 합니다.

- 각 보기를 생성할 확률을 통해 예측을 수행합니다.

- In-context Learning 을 위해 예제를 함께 삽입합니다.

질문 : 인구가 제일 많은 나라는?
보기 : (1) 중국 (2) 한국 (3) 미국 (4) 일본

[모델의 추론결과] ---> 모델이 예측한 값 (B)

(A) : 82%

(B) : 1%

(C) : 14%

(D) : 3%


ARC(AI2 Reasoning Challenge)

https://allenai.org/

 

Allen Institute for AI

AI2, founded by Paul Allen and led by Ali Farhadi, conducts high-impact research and engineering to tackle key problems in artificial intelligence.

allenai.org

AI2의 추론 과제(ARC) 데이터 세트는 3학년부터 9학년까지의 과학 시험 문제가 포함된 객관식 선다형 문제풀이 데이터 세트입니다. 데이터 세트는 두 개의 파티션으로 나뉩니다: 쉬운 문제와 어려운 문제로 나뉘며, 후자의 파티션에는 추론이 필요한 더 어려운 문제가 포함되어 있습니다. 대부분의 문제는 4지 선다형이며, 3지 또는 5지 선다형인 문제는 전체 문제의 1% 미만입니다. ARC에는 14.3MKB의 비정형 텍스트 구절이 포함되어 있습니다.

  • 초등학교 수준의 과학 질문 - 답변으로 구성
  • 9개의 추론유형과 8개의 지식유형에 대한 평가가 진행

추론유형
Multihop Reasoning, Question Logic, Linguistic Matching, Comparison, Algebraic, Counterfactual, Explanation, Spatial, Analogy

지식유형
Defenition, Basic Facts, Structure, Processes, Purpose, Algegbraic, Experiments, Spatial

질문: 물이 어는점은 몇 도일까요?
보기 : (A) 100도 (B) 0도 (C) 20도 (D) -10도
정답 : (B)

 

위 질의를 토대로 아래의 JSON 파일을 보면 더욱 이해가 쉽습니다.

JSONL 구조
JSONL 파일에는 동일한 문제가 문제의 '줄기'(문제 텍스트)와 다양한 답안 '선택지' 및 해당 레이블(A, B, C, D)로 나뉘어져 있습니다. questionID도 포함됩니다.

{
  "id": "MCAS_2000_4_6",
  "question": {
    "stem": "Which technology was developed most recently?",
    "choices": [
      {
        "text": "cellular telephone",
        "label": "A"
      },
      {
        "text": "television",
        "label": "B"
      },
      {
        "text": "refrigerator",
        "label": "C"
      },
      {
        "text": "airplane",
        "label": "D"
      }
    ]
  },
  "answerKey": "A"
}

 


MMLU(Massive Multitask Language Understanding)

Papers with code

  • 다중 태스크(Multi Task) : 57개의 Task 로 구성(수학,역사, 컴퓨터과학, 법 등의 다양한 도메인을 포괄)
  • 다양한 도메인에 대한 이해를 필요로 함
  • 등학생 수준의 문제 ~ 전문 지식 수준 의 문제의 난이도 까지 다양함
  • 일반인 기준 34.5% Accuracy 달성

 

매우 어려운 난이도의 문제들이 많이 있음 그래서, 언어모델이 MMLU의 점수가 높을 수록 성능이 좋고 일반화가 잘 되었을 가능성이 높다.


HellaSwag

hellaswag

  • 문장 종결 능력을 평가함
  • 주어진 문장에 자연스럽게 이어지는 문장 선택 Task
  • 인간은 쉽게 풀 수 있으나 , 모델이 해결하기 어려운 데이터셋을 일부러 구축
    • 긴 문장 및 복잡한 문장 구조 특징
    • 특정 단어에 집중하지 않고, 문맥 이해를 필요로 함
  • WikiHow 및 ActivityNet 을 통홰 일상 생활 지식에 대한 평가 진행
    • 음식만들기, 애완동물, 세차 등

Leaderboard

오픈 리더보드 평가지표를 보면 GPT4의 성능을 체감 할 수 있다. 인간을 뛰어넘는 wikihhow 지표 등 거의 정확도차이가 없을 정도이다,


TruthfulQA

TruthfulQA

  • 사실 기반 문장 이해 능력 평가
  • 38개 도메인으로 구성되어 있음, 사실 관계가 매우 중요한 질문
  • 질문 - 답변 후보 쌍으로 구성
  • 모든 답변 후보는 질문에 대해 그럴듯한 대답이지만 답변은 따로 있음

WinoGrande

WinoGrande Dataset

  • 초등학교 수준의 일반 상식 보유 능력 평가
  • 특정 단어 변경으로 인해 발생하는 문장 내 의미 변화 포착 Task
    • 일반 상식을 가지고 있다면 쉽게 해결할 수 있음
  • 문장 내 공란에 들어갈 단어를 선택
    • 모든 보기 내 단어는 문장 내 삽입 시 그럴듯한 표현
    • 일반 상식 기반 답변 시 특정 단어만 가능

GSM8K

GSM8K

  • 초등학교 수준의 수학 문제
  • LLM의 수학적 문장 이해 능력 및 수리 추론 능력 평가
  • 모델의 생성문 내 정답 포함 여부를 통해 평가
    • 질문 : 일반 문장 형태로 주어진 수식 계산 문제
    • 답변 : 정답 도출을 위한 과정(multi-hop reasoning)을 포함한 정답

Drop(Discrete Reasoning Over The content of Paragraphs)

  • 모델의 문맥 내 수치 이해 추론 능력 평가
  • 모델의 생성문 내 정답 존재에 따른 평가 진행(F1, Exact Match)

문제에 정답을 주고 지문을 줘서 모델이 맞출수 있는지 평가한다.


 

 

이렇게 OpenLLM 에 관련된 평가지표를 알아보았습니다. 아무래도 MMLU가 제일 중요하다고 생각이 많이 들긴합니다. 일반화가 잘 되어있고 똑똑한 모델을 만들려면 MMLU 성능을 높혀야 할 것이고 리더보드를 전략적으로 파인튜닝하려면 지표에 따른 계산을 잘 해서 데이터셋을 알맞게 구축을 해야 할 것 같습니다.

728x90