LLM 데이터셋 관련 정리 - 대규모 원시 말뭉치

728x90

안녕하세요 Simon 입니다.

오늘은 LLM 데이터셋 관련 대규모 말뭉치에 관해 글을 정리해볼까 합니다.

오늘날의 GPT와 같은 모델들은 이 대규모 원시 말뭉치를 통해 Self-Supervised Training 이 되어 다양한 형태로 Fine-Tunning 되어 우리의 일상속에 들어와 있습니다. T5를 시작으로 엄청나게 발전을 많이 했는데요. 저도 2022년에 AI를 입문하게 되었고 자연어처리는 GPT가 나오고 배웠지만 거의 T5가 주류를 이루고 있었는데 현재 지금 엄청 빠르게 발전한 모습이네요.

그렇다면 이 LLM들을 어디서 학습데이터를 구하냐? 바로 우리 곁에 있습니다. 다들 한번쯤 해보신 크롤링을 통해서 데이터를 모을 수 있고, 위에 소개해드린대로 AIhub 와 같은 데이터센터에서 가져올 수 도 있습니다.

크롤링 같은 경우는 나만의 도메인 Task 에 맞게 수집을 할 수 있습니다. 그러나 그만큼 제약과 어려움이 많고 또한 시간이 매우 오래 걸립니다. 그래서 우리는 누가 크롤링 해둔 데이터를 활용하면 됩니다.

Common Crawl

Common Crawl - Open Repository of Web Crawl Data

We build and maintain an open repository of web crawl data that can be accessed and analyzed by anyone.

commoncrawl.org

커먼 크롤러를 이용하면 됩니다. 커먼크롤러의 2달의 데이터 들입니다. WARC 에는 Html 코드가 들어있어서 거의 90tb 에 육박하는 매우 많은 데이터가 있습니다. WARC(원시) -> WET(Plain Text) 전처리가 된 후에는 9TB를 활용 할 수 있습니다.

plain text 에도 웹에서 가져온 데이터여서 중복, 문장 단위 전처리를 하고, 비속어를 필터링 등 클린하게 데이터셋을 Google에서 구축을 해놓았습니다. 약 800Gb 의 크기이고 T5 모델의 기반이 되는 데이터셋 입니다. 현재 언어모델에서도 사전학습용으로 C4로 먼저 학습을 하는 경우가 많다고 합니다.

원시말뭉치의 다양한 종류

웹페이지

CommonCrawl, Reddit, SNS(facebook, X), Open WebText, wikidpia
퀄리티 필터링이 필요하다. C4 처럼 전처리를 해줘야 한다

대화기록

Reddit, SNS, StackExchange, StackOverFlow 등
Q&A 형태의 Task 의 향상 가능성이 존재한다.
메신저 같은 경우에도 데이터셋이 될 수 있다. 그러나 저작권, 보안 문제가 우려가 된다.

서적, 뉴스, 포럼, 논문

CNN, Project Gutenberg, arXiv, Book COrpus,
Long Dependent text 학습에 유효

"오픈AI, 뉴스 라이선스 비용으로 매년 65억원 지출 계획"

오픈AI가 인공지능(AI) 모델 훈련을 위해 뉴스 기사 라이선스 비용을 연간 최대 500만 달러(약 65억원) 지출할 예정이라고 전해졌다.4일(현지시간) 미국 디인...

zdnet.co.kr

이미 OpenAI 같은 경우도 뉴스를 활용해서 일관성 있는 데이터를 구축하기 위해 천문학적인 비용을 지불 하고 있다.

코드

Github, BigQuery
모델의 추리 능력에 성능이 향상 된다는 주장

Task 에 맞게 훈련을 시키는 경우도 있고 저번에 소개했던 MMLU 의 성능을 높히기 위해선은 LLaMA 처럼 다양한 데이터셋을 통해서 학습을 시켜서 조금 더 일반화시킬 수도 있다.

위처럼 다양하게 일반하게 만들기 위해서 The Pile 처럼 다양한 Task 를 고려 할 수 있도록 데이터셋을 구성해놓은 The pile도 있다.

Pile 을 활용한다면 PLM 을 빠르게 구축할 수 있을것이다.

728x90

'AI > Contents' 카테고리의 다른 글

[Langchain] 처음시작하는 랭체인 - (1) (3)	2024.01.24
라즈베리파이와 GPT-4-VISION Few-shot을 통한 예제 메인페이지 게재 (1)	2024.01.18
프롬프트 엔지니어링의 새로운 방법 : PAL(Program-Aided Language Models) 의 원리와 실제 적용 사례 (1)	2024.01.17
GPT 스토어에서 가장 인기있는 챗봇은? (3)	2024.01.15
Apple 의 M 시리즈를 활용한 딥러닝 freamework 인 MLX 에 대해 알아보자 - (1) 설치 (1)	2024.01.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

WIZnet 테크 블로그