본문 바로가기
AI/Contents

LLM 데이터셋 관련 정리 - 대규모 원시 말뭉치

by AI미남홀란드 2024. 1. 17.
728x90

안녕하세요 Simon 입니다.

오늘은 LLM 데이터셋 관련 대규모 말뭉치에 관해 글을 정리해볼까 합니다.

AI hub

오늘날의 GPT와 같은 모델들은 이 대규모 원시 말뭉치를 통해 Self-Supervised Training 이 되어 다양한 형태로 Fine-Tunning 되어 우리의 일상속에 들어와 있습니다. T5를 시작으로 엄청나게 발전을 많이 했는데요. 저도 2022년에 AI를 입문하게 되었고 자연어처리는 GPT가 나오고 배웠지만 거의 T5가 주류를 이루고 있었는데 현재 지금 엄청 빠르게 발전한 모습이네요.

LLM

그렇다면 이 LLM들을 어디서 학습데이터를 구하냐? 바로 우리 곁에 있습니다. 다들 한번쯤 해보신 크롤링을 통해서 데이터를 모을 수 있고, 위에 소개해드린대로 AIhub 와 같은 데이터센터에서 가져올 수 도 있습니다.

크롤링 같은 경우는 나만의 도메인 Task 에 맞게 수집을 할 수 있습니다. 그러나 그만큼 제약과 어려움이 많고 또한 시간이 매우 오래 걸립니다. 그래서 우리는 누가 크롤링 해둔 데이터를 활용하면 됩니다.

 

Common Crawl

Common Crawl

 

 

Common Crawl - Open Repository of Web Crawl Data

We build and maintain an open repository of web crawl data that can be accessed and analyzed by anyone.

commoncrawl.org

비교

커먼 크롤러를 이용하면 됩니다. 커먼크롤러의 2달의 데이터 들입니다. WARC 에는 Html 코드가 들어있어서 거의 90tb 에 육박하는 매우 많은 데이터가 있습니다. WARC(원시) -> WET(Plain Text) 전처리가 된 후에는 9TB를 활용 할 수 있습니다.

c4

plain text 에도 웹에서 가져온 데이터여서 중복, 문장 단위 전처리를 하고, 비속어를 필터링 등 클린하게 데이터셋을 Google에서 구축을 해놓았습니다. 약 800Gb 의 크기이고 T5 모델의 기반이 되는 데이터셋 입니다. 현재 언어모델에서도 사전학습용으로 C4로 먼저 학습을 하는 경우가 많다고 합니다.

 


원시말뭉치의 다양한 종류

웹페이지

  • CommonCrawl, Reddit, SNS(facebook, X), Open WebText, wikidpia
  • 퀄리티 필터링이 필요하다. C4 처럼 전처리를 해줘야 한다

대화기록

  • Reddit, SNS, StackExchange, StackOverFlow 등
  • Q&A 형태의 Task 의 향상 가능성이 존재한다.
  • 메신저 같은 경우에도 데이터셋이 될 수 있다. 그러나 저작권, 보안 문제가 우려가 된다.

서적, 뉴스, 포럼, 논문 

  • CNN, Project Gutenberg, arXiv, Book COrpus,
  • Long Dependent text 학습에 유효
 

"오픈AI, 뉴스 라이선스 비용으로 매년 65억원 지출 계획"

오픈AI가 인공지능(AI) 모델 훈련을 위해 뉴스 기사 라이선스 비용을 연간 최대 500만 달러(약 65억원) 지출할 예정이라고 전해졌다.4일(현지시간) 미국 디인...

zdnet.co.kr

  • 이미 OpenAI 같은 경우도 뉴스를 활용해서 일관성 있는 데이터를 구축하기 위해 천문학적인 비용을 지불 하고 있다.

코드

  • Github, BigQuery
  • 모델의 추리 능력에 성능이 향상 된다는 주장

LLM이 학습시킨 데이터

 

 

Task 에 맞게 훈련을 시키는 경우도 있고 저번에 소개했던 MMLU 의 성능을 높히기 위해선은 LLaMA 처럼 다양한 데이터셋을 통해서 학습을 시켜서 조금 더 일반화시킬 수도 있다.

 

The Pile

 

위처럼 다양하게 일반하게 만들기 위해서 The Pile 처럼 다양한 Task 를 고려 할 수 있도록 데이터셋을 구성해놓은 The pile도 있다. 

Pile 을 활용한다면 PLM 을 빠르게 구축할 수 있을것이다. 

 

그러나 plain text 자체도, 저작권이 있기 떄문에 잘 알아두고 사용을 해야한다. 한 작가가 GPT에게 자기의 책내용을 질문하자 너무 똑같이 답변해서, 알아채고 고소하겠다고 얘기가 나온적이 있다. 그래서 나중에라도 Fine-tunning 을 시킬때 dataset의 정보를 잘 알아보고 써야하지 않을까 생각한다.

 

 

728x90