안녕하세요 Simon 입니다.
오늘은 Open LLM Leaderboard 에서 순위를 평가하는 지표에 대해서 자세히 알아보겠습니다.
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
평가방식(Im-evaluation-harness)
- 질문과 보기를 모델에 입력을 합니다.
- 각 보기를 생성할 확률을 통해 예측을 수행합니다.
- In-context Learning 을 위해 예제를 함께 삽입합니다.
질문 : 인구가 제일 많은 나라는?
보기 : (1) 중국 (2) 한국 (3) 미국 (4) 일본
[모델의 추론결과] ---> 모델이 예측한 값 (B)
(A) : 82%
(B) : 1%
(C) : 14%
(D) : 3%
ARC(AI2 Reasoning Challenge)
AI2의 추론 과제(ARC) 데이터 세트는 3학년부터 9학년까지의 과학 시험 문제가 포함된 객관식 선다형 문제풀이 데이터 세트입니다. 데이터 세트는 두 개의 파티션으로 나뉩니다: 쉬운 문제와 어려운 문제로 나뉘며, 후자의 파티션에는 추론이 필요한 더 어려운 문제가 포함되어 있습니다. 대부분의 문제는 4지 선다형이며, 3지 또는 5지 선다형인 문제는 전체 문제의 1% 미만입니다. ARC에는 14.3MKB의 비정형 텍스트 구절이 포함되어 있습니다.
- 초등학교 수준의 과학 질문 - 답변으로 구성
- 9개의 추론유형과 8개의 지식유형에 대한 평가가 진행
추론유형
Multihop Reasoning, Question Logic, Linguistic Matching, Comparison, Algebraic, Counterfactual, Explanation, Spatial, Analogy지식유형
Defenition, Basic Facts, Structure, Processes, Purpose, Algegbraic, Experiments, Spatial
질문: 물이 어는점은 몇 도일까요?
보기 : (A) 100도 (B) 0도 (C) 20도 (D) -10도
정답 : (B)
위 질의를 토대로 아래의 JSON 파일을 보면 더욱 이해가 쉽습니다.
JSONL 구조
JSONL 파일에는 동일한 문제가 문제의 '줄기'(문제 텍스트)와 다양한 답안 '선택지' 및 해당 레이블(A, B, C, D)로 나뉘어져 있습니다. questionID도 포함됩니다.
{
"id": "MCAS_2000_4_6",
"question": {
"stem": "Which technology was developed most recently?",
"choices": [
{
"text": "cellular telephone",
"label": "A"
},
{
"text": "television",
"label": "B"
},
{
"text": "refrigerator",
"label": "C"
},
{
"text": "airplane",
"label": "D"
}
]
},
"answerKey": "A"
}
MMLU(Massive Multitask Language Understanding)
- 다중 태스크(Multi Task) : 57개의 Task 로 구성(수학,역사, 컴퓨터과학, 법 등의 다양한 도메인을 포괄)
- 다양한 도메인에 대한 이해를 필요로 함
- 등학생 수준의 문제 ~ 전문 지식 수준 의 문제의 난이도 까지 다양함
- 일반인 기준 34.5% Accuracy 달성
매우 어려운 난이도의 문제들이 많이 있음 그래서, 언어모델이 MMLU의 점수가 높을 수록 성능이 좋고 일반화가 잘 되었을 가능성이 높다.
HellaSwag
- 문장 종결 능력을 평가함
- 주어진 문장에 자연스럽게 이어지는 문장 선택 Task
- 인간은 쉽게 풀 수 있으나 , 모델이 해결하기 어려운 데이터셋을 일부러 구축
- 긴 문장 및 복잡한 문장 구조 특징
- 특정 단어에 집중하지 않고, 문맥 이해를 필요로 함
- WikiHow 및 ActivityNet 을 통홰 일상 생활 지식에 대한 평가 진행
- 음식만들기, 애완동물, 세차 등
오픈 리더보드 평가지표를 보면 GPT4의 성능을 체감 할 수 있다. 인간을 뛰어넘는 wikihhow 지표 등 거의 정확도차이가 없을 정도이다,
TruthfulQA
- 사실 기반 문장 이해 능력 평가
- 38개 도메인으로 구성되어 있음, 사실 관계가 매우 중요한 질문
- 질문 - 답변 후보 쌍으로 구성
- 모든 답변 후보는 질문에 대해 그럴듯한 대답이지만 답변은 따로 있음
WinoGrande
- 초등학교 수준의 일반 상식 보유 능력 평가
- 특정 단어 변경으로 인해 발생하는 문장 내 의미 변화 포착 Task
- 일반 상식을 가지고 있다면 쉽게 해결할 수 있음
- 문장 내 공란에 들어갈 단어를 선택
- 모든 보기 내 단어는 문장 내 삽입 시 그럴듯한 표현
- 일반 상식 기반 답변 시 특정 단어만 가능
GSM8K
- 초등학교 수준의 수학 문제
- LLM의 수학적 문장 이해 능력 및 수리 추론 능력 평가
- 모델의 생성문 내 정답 포함 여부를 통해 평가
- 질문 : 일반 문장 형태로 주어진 수식 계산 문제
- 답변 : 정답 도출을 위한 과정(multi-hop reasoning)을 포함한 정답
Drop(Discrete Reasoning Over The content of Paragraphs)
- 모델의 문맥 내 수치 이해 추론 능력 평가
- 모델의 생성문 내 정답 존재에 따른 평가 진행(F1, Exact Match)
문제에 정답을 주고 지문을 줘서 모델이 맞출수 있는지 평가한다.
이렇게 OpenLLM 에 관련된 평가지표를 알아보았습니다. 아무래도 MMLU가 제일 중요하다고 생각이 많이 들긴합니다. 일반화가 잘 되어있고 똑똑한 모델을 만들려면 MMLU 성능을 높혀야 할 것이고 리더보드를 전략적으로 파인튜닝하려면 지표에 따른 계산을 잘 해서 데이터셋을 알맞게 구축을 해야 할 것 같습니다.
'AI > Contents' 카테고리의 다른 글
Apple 의 M 시리즈를 활용한 딥러닝 freamework 인 MLX 에 대해 알아보자 - (1) 설치 (1) | 2024.01.08 |
---|---|
30분이면 자막을 입힌다고?? Whisper AI를 사용해보자 (1) | 2024.01.05 |
WIZnet Chatbot 개발 일지 - 제품 이름 환각현상 해결하기 (1) | 2023.12.29 |
[Langchain] 평점기반의 맛집 RAG LLM 구축하기 (0) | 2023.12.15 |
ReAct Prompting 에 대하여 (0) | 2023.12.13 |