본문 바로가기

728x90

DataSet1

LLM 데이터셋 관련 정리 - 대규모 원시 말뭉치 안녕하세요 Simon 입니다. 오늘은 LLM 데이터셋 관련 대규모 말뭉치에 관해 글을 정리해볼까 합니다. 오늘날의 GPT와 같은 모델들은 이 대규모 원시 말뭉치를 통해 Self-Supervised Training 이 되어 다양한 형태로 Fine-Tunning 되어 우리의 일상속에 들어와 있습니다. T5를 시작으로 엄청나게 발전을 많이 했는데요. 저도 2022년에 AI를 입문하게 되었고 자연어처리는 GPT가 나오고 배웠지만 거의 T5가 주류를 이루고 있었는데 현재 지금 엄청 빠르게 발전한 모습이네요. 그렇다면 이 LLM들을 어디서 학습데이터를 구하냐? 바로 우리 곁에 있습니다. 다들 한번쯤 해보신 크롤링을 통해서 데이터를 모을 수 있고, 위에 소개해드린대로 AIhub 와 같은 데이터센터에서 가져올 수 도 .. 2024. 1. 17.

이전 1 다음

728x90

티스토리툴바