본문 바로가기
AI/Ref.News

대규모 언어 모델(Large Language Models, LLMs)에 대한 포괄적 조사

by 벵자민 2023. 12. 19.
728x90
본 내용은 아래 Medium 글을 정리하였습니다.
https://cobusgreyling.medium.com/a-comprehensive-survey-of-large-language-models-llms-946a30d9288e

 

핵심 내용 정리

  • 논문 발표 증가: "대규모 언어 모델"이란 제목이나 초록에 포함된 arXiv 논문의 평균 발표 수가 하루 0.40편에서 8.58편으로 증가
  • LLM의 원리: 대규모 언어 모델의 진보와 영향에도 불구하고, 그 기본 원리는 아직 잘 탐구되지 않음
  • 오픈 소스 LLM의 역할: Meta의 기여는 중요하며, 오픈 소스 LLM은 확장, 맞춤화 및 성장의 촉매제 역할
  • LLaMA 모델 활용 연구: 많은 연구자들이 LLaMA 모델을 지시 조정(instruction tuning) 또는 지속적인 사전 훈련(continual pre-training)을 통해 확장함
  • 프롬프트 엔지니어링 구현 계획 : 최소한의 프롬프트, DECOMP, PS, Faithful CoT, PAL, HuggingGPT, AdaPlanner, TIP, RAP, ChatCoT, ReAct, Reflexion, Tree of Thoughts

 

LLM의 세 가지 새로운 능력

Emergent Abilities 관련 원문 링크

 

LLM Landscape Development

 

훈련 데이터 출처

  • General Data / Specialised Data

LLM별 데이터 출처, 성향 파악 가능
대표적인 연구방향과 다운스트림 영역에서의 LLM 적용사례

 

 

결론

대규모 언어 모델의 발전은 자연어 처리에서 중요한 진보를 표시함. 초기 규칙 기반 대화 관리부터 GPT-3와 같은 강력한 신경망의 출현에 이르기까지, 대규모 언어 모델의 서사는 지속적인 개선, 혁신 및 기존 기술 환경으로의 통합이라는 특징을 지님.

728x90