본문 바로가기
AI/Paper Review

Large Language Models for Data Annotation: A Survey 논문 리뷰

by 민윤홍 2024. 2. 29.
728x90

안녕하세요 Acorn입니다.

 

안녕하세요 오늘 소개해드릴 논문 리뷰는 Large Language Models for Data Annotation: A Survey 입니다.

데이터 주석에 대한 다양한 관점에서 조사가 이루어졌고, 각 분야에 대한 최신 연구 동향을 소개해주는 논문입니다.

 

배경색은 의미를 내포하고 있습니다!

파란 배경 : 중요하다 생각하는 부분

빨간 배경 : 내 의견이 반영된 부분

 

 

논문 링크 : https://arxiv.org/abs/2402.13446

Abstract

데이터 주석은 머신러닝 모델의 성능을 향상시키기 위해 필수적인 과정입니다. 그러나 이 작업은 시간과 비용을 많이 소모합니다. 그렇기에 최신 LLM 모델인 GPT-4를 사용하여 자동화 하는 많은 방법론들이 탄생하고 있습니다. 이  백서는 데이터 주석을 위한 LLM의 유용성에 초점을 맞추어, LLM 기반 주석의 생성, 평가, 그리고 이를 활용한 학습 방법에 대해 탐구합니다. 또한, LLM을 사용한 주석 방법론, 통합 전략, 주요 도전과제 및 한계에 대한 심도 있는 분석을 제공합니다. 이 연구는 데이터 주석 분야에서 LLM의 가능성을 탐색하고자 하는 연구자와 실무자에게 중요한 가이드가 될 것입니다.

 

 

Introduce

데이터 주석은 데이터의 복잡성, 주관성, 다양성으로 인해 도메인 전문 지식을 필요로 하며, 대규모 데이터셋을 수동으로 라벨링하는 것은 높은 리소스가 요구됩니다. 그렇기에 GPT-4, Gemini, Llama-2와 같은 고급 대규모 언어 모델(LLM)은 데이터 주석을 처리하는 방법론들이 발달하고 있습니다. 이러한 모델들은 주석 작업의 자동화, 대규모 데이터에서의 일관성 보장, 특정 도메인에 대한 세밀한 조정 또는 프롬프팅을 통한 적응 능력을 통해 전통적인 주석 방법에 비해 리소스를 상당히 줄여줍니다.

이 조사는 LLM을 사용한 데이터 주석의 뉘앙스를 탐구하며, 방법론, 학습 전략, 변혁적 접근법에서 직면하는 방법론 들을 리뷰 합니다. 이는 LLM 기반 데이터 주석의 특정 속성과 능력, 주석 품질 평가 방법, LLM 생성 주석을 기반으로 하는 기계 학습 모델의 학습 방법론, 기술적 한계와 윤리적 고려 사항들을 포함합니다. 이 조사는 순수 언어 모델에 초점을 맞추며, 멀티모달 LLM은 제외 하였습니다. 이 연구는 LLM을 주석 도구로 활용하고자 하는 학계와 실무자에게 가치 있는 가이드가 될 것이며, 이 분야에서의 LLM 응용에 대한 중요한 차이점을 제시합니다.

이 논문의 구조

 

LLM-Based Data Annotation

- 완전 감독 학습(Fully Supervised Learning): M>0, N=0. 주석자 A는 Dl 내의 데이터 포인트에 대한 보조 신호를 생성하고 이를 Dgl로 변환합니다. 공식적으로, Dgl = {(xj, yj, oj)}j=1M, 여기서 oj = A(xj)입니다. 그런 다음 학습자 L은 Dgl에 대해 훈련됩니다. 예를 들어, 감정 분석 작업에서 A에 의해 생성된 속성 oj는 영화 리뷰에서 핵심 구절과 감정 강도를 강조하여, 작업 학습자 L이 리뷰를 긍정적 또는 부정적으로 정확하게 분류하는 데 도움을 줄 수 있습니다.

- 비감독 학습(Unsupervised Learning): M=0, N>0. 이 경우, A는 Du에서 작동하여 Dgu = {(xi, oi)}i=1N으로 정의된 Dgu를 생성합니다. 작업 학습자 L은 이 데이터셋에 대해 훈련됩니다.

- 반감독 학습(Semi-Supervised Learning): M>0, N>0, 보통 N≫M. 여기서, 주석자 A는 Dl과 Du 둘 다 또는 그 중 하나에서 작동하여 결합된 데이터셋 Dg를 생성할 수 있습니다. 그런 다음 작업 학습자 L은 Dg에 대해 훈련됩니다.


- 입출력 프롬프팅(IO): LLM과의 기본적인 상호 작용 모드로, 프롬프트 `p`를 제공하여 출력 `o = A(p)`를 얻습니다.

- 인-콘텍스트 학습(ICL): IO를 기반으로 하며, 프롬프트에 예시 쌍의 시퀀스 `E = {(xe, oe)}`를 포함시켜 LLM이 원하는 출력 `o = A(E⊕p)`으로 유도합니다.

- 사고 과정 프롬프팅(CoT): ICL을 확장하여 각 시연에 추론 경로 `re`를 추가함으로써, `E = {(xe, re, oe)}`로 구성됩니다. 이 방법은 LLM의 추론 능력을 향상시킬 수 있습니다.

- 인스트럭션 튜닝(IT): 작업 특정 지시사항을 기반으로 LLM을 미세 조정하여, 다양한 하위 작업에서 일반화할 수 있도록 합니다. 이 과정은 `o = A(q ⊕ p)`로 표현되며, 여기서 `q`는 작업 설명을 나타냅니다.

- 정렬 튜닝(AT): LLM을 미세 조정하여 인간의 선호도와 일치하도록 합니다. 인간이 라벨링한 데이터뿐만 아니라 LLM이 생성한 주석도 미세 조정에 사용됩니다. 일반적으로, LLM 기반 주석 프로세스는 `z = A(q ⊕ x1 ⊕ x2 ⊕ p)`로 표현되며, 여기서 `x1`과 `x2`는 LLM에 의해 생성된 두 가지 후보 응답, `q`는 작업 설명, `z`는 인간의 선호도를 나타내는 점수입니다.

 

Assessing LLM-Generated Annotations

LLM(대규모 언어 모델)이 생성한 주석의 효과적인 평가는 데이터를 완전히 활용하는 데 중요합니다. 이 과정은 인간 주도의 접근 방식(human feedback)부터 자동화된 방식(auto feedback)에 이르기까지 다양한 방법으로 주석 품질을 평가하는 것을 포함합니다.

- 일반적인 접근 방식

지금껏 LLM 주석을 평가하기 위한 정말 다양한 방법론들이 등장했습니다. "Turking Test"는 LLM이 데이터 주석 지침을 얼마나 잘 따르는지 평가하며, 인간 주석자가 SNLI, SQuAD, NewsQA와 같은 벤치마크에 대해 LLM 출력을 비교합니다. 비슷하게, 다른 연구들은 LLM이 생성한 데이터셋의 원본성, 정확성, 다양성을 수동으로 검토했습니다.

- 과제별 평가
평가 방법론은 애플리케이션별로 다양합니다. 지식 그래프 향상에서는 토큰 순위 지표(self-BELU)가 사실 완성에 대한 LLM 기여도를 평가하는 데 사용됩니다. 반면, 코드 생성에서는 Pass@k와 같은 지표에 의존합니다. 광범위한 데이터셋이 필요한 시나리오에서는 LLM 생성 주석의 품질을 소규모 라벨링된 부분집합 내의 금표준 라벨과 비교합니다.

- 액티브 러닝을 통한 데이터 선택
다양한 옵션 중에서 고품질의 주석을 선택하는 것이 중요합니다. 특히 LLM을 액티브 러닝(AL) 과정에 통합할 때, AL은 핵심 기술로 부상합니다. AL은 학습 모델의 성능을 향상시키거나 예산 한도에 도달할 때까지 가장 유익한 샘플을 풀에서 전략적으로 선택합니다 .본 논문에서는 대규모 Non-라벨링 데이터 풀과 더 작은 규모의 라벨링된 데이터 세트가 존재하는 학습을 위한 프레임워크 내에서 풀 기반 AL 논문들을 몇가지 소개합니다. .


Learning with LLM-Generated Annotations

대규모 언어 모델(LLM)이 생성한 주석을 활용하는 것은 다양한 기계 학습 작업에 대한 귀중한 라벨 데이터 자원을 제공합니다. 이 포스트에서는 LLM 생성 주석으로 학습하는 방법론을 탐구합니다.

## 대상 도메인 추론: 어노테이션의 직접 활용

LLM 생성 주석의 실제 응용을 탐구하며, 주의 깊게 설계된 프롬프트를 통해 LLM으로부터 추출된 주석은 다양한 하류 작업에 대한 귀중한 예측을 제공합니다. 이러한 사용은 감독 학습과 비감독 학습으로 분류될 수 있으며, 주석은 예측으로 기능하며 라벨이 관련되지 않는 시나리오(예: 제로샷)에서 활용됩니다.

### 라벨 예측
LLM은 수동으로 설계된 프롬프트를 사용하여 두 가지 방식으로 예측 라벨을 생성합니다. 첫째, 시연 샘플을 고려하여 라벨을 예측하고, 둘째, 시연 샘플에 의존하지 않고 예측을 합니다. 이 기술은 LLM이 추론, 지식 기반, 인과 추론, 추천 시스템, 건강 관리 및 비전-언어 모델을 포함한 다양한 영역에 기여할 수 있게 합니다.

## 지식 증류: LLM과 과제별 모델 간의 가교

지식 증류(KD)는 LLM의 능력을 활용하는 추가적인 접근법으로 "학생" 모델이 "교사"(일반적으로 GPT-4와 같은 높은 수준의 모델) 모델과 같은 내용을 학습하되, 교사모델의 손실함수를 학생 모델에 적용하여 역전파 시키는 방법입니다. 이 방법은 교사 모델의 전문 지식을 전달하는 데 도움을 주어 학생 모델이 더 낮은 자원 요구 사항에도 불구하고 교사의 성능에 맞추거나 능가할 수 있도록 합니다.  KD가 주로 단일 증류 기술에 초점을 맞췄다면 최근에는 GKD와 같이 여러 증류 전략을 융합하여 효율성과 성능을 동시에 개선하는 연구들이 진행중입니다.​


## LLM 주석을 활용한 미세조정 및 프롬프팅

### In-Context Learning
GPT-3 모델에서 비롯된 In-Context Learning(ICL)은 LLM의 성능을 다양한 작업에 걸쳐 향상시키기 위해 널리 사용되었습니다. 이 접근법은 작업 지시와 함께 설명적 시연을 포함하는 특별히 형식화된 프롬프트를 자주 사용합니다.

### Chain of Thought Prompting
ICL 내의 특수화된 방법으로, CoT는 복잡한 추론 작업에서 LLM의 성능을 특히 향상시킵니다. 전통적인 ICL과 달리, CoT는 중간 추론 단계를 프롬프트에 도입합니다.

### Instruction Tuning
ICL이 LLM을 입력 구조를 변경함으로써 적응시키는 반면, 인스트럭션 튜닝은 다양한 작업에서 모델을 미세 조정하는 다른 접근법을 취합니다. 이는 고품질 훈련 데이터의 획득 과정이 많은 인간의 노력을 필요로 하는 반면, 최근의 작업들은 LLM 생성 주석을 활용하여 이 수고스러움을 덜어내는 연구가 진행되고 있음.

### Alignment Tuning
Alignment tuning은 LLM을 인간의 기대에 맞추기 위해 바람직하지 않은 행동을 제거하는 것을 목표로 합니다. 실제로, 인간의 피드백을 수집하는 것은 비용이 많이 들고 번거로울 수 있습니다. 따라서, 기존의 작업들은 주로 인간의 선호를 모방할 수 있는 보상 모델을 학습합니다.

PPO(Proximal Policy Optimization): PPO 전략은 현재 LLM출력과 이전 LLM출력간의 KL(kullback-Leibier)차이를 계산하여 핵심 아이디어인 이전 정책과 비교하여 너무 멀리 떨어지지 않는 새로운 정책을 반복적으로 최적화하는 것입니다
RLHP(Reinforce Learning Human wiith Human Preferences) : 인간 선호도인 PLHP는 LLM을통해 답변을 생성시키는 과정에서 동시에 주장을 뒷받침하는 근거도 같이 생성시켜 정확도 평가를 용이하게 하는 방식이다.
RLAIF(Reinforce Learning Human wiith AI Feedback) : 아예 LLM이 라벨링 시킨 데이터를 사용하여 피드백도 시키는 방법론 입니다. 사람과 유사한 성능을 보이기도 하지만 이는 제한적인 환경에서만 퍼포먼스가 나올 것 같습니다.

 

 

Challenge

LLM 데이터 주석의 도전 과제에는 기술적 장벽, 정확성 문제, 노동 대체 및 편향 전파와 같은 사회적 함의가 포함됩니다. 모델 모방에서의 오류 축적은 주로 ChatGPT와 같은 독점 LLM과 LLaMA와 같은 오픈소스 대응물 간의 성능 격차를 좁히려는 노력에서 비롯됩니다. 이러한 전략은 모방 모델은 우수한 모델의 손실함수에 의한 역전파만 학습하여 사실적 정밀도를 달성하지 못하면서 요소를 복제하는 경향이 있습니다. 이러한 행위는 모델 붕괴로 이어지고, 시간이 지남에 따라 LLM의 신뢰성을 저하시킬 위험이 있습니다.

 

또한, LLM에서의 환각 현상은 주석의 무결성과 신뢰성을 심각하게 손상시킵니다. 실제 데이터와 분리된 출력은 특히 건강 관리, 법률 분석 및 금융 분야와 같은 민감한 분야에서 잘못된 정보와 주석의 부정확성을 야기할 수 있습니다. 이러한 문제를 해결하기 위해서는 LLM 훈련 과정을 세밀하게 조정하고 주석에 대한 검증 메커니즘을 구현하는 종합적인 전략이 필요합니다.

 

728x90