본문 바로가기
728x90

nlp15

Attention Mechanism 이란? - (1) 어텐션이란? 풀고자 하는 Task의 핵심이 되는 정보를 찹아서 집중한다! 주의 주목, 관심 흥미, 뉴진스 어텐션! 등 다양한 뜻으로 쓰이고 있습니다. 자연어 처리 NLP 분야의 혁신으로 이끈 논문 All you need is attention 이란 논문을 다들 읽어보셨을거라고 생각합니다. Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder thr.. 2024. 3. 4.
Nemotron-4 15B Technical Report 논문 리뷰 안녕하세요 오늘 소개해드릴 논문 리뷰는 Nvidia 의 오픈소스 언어모델 Nemotron-4 15B 입니다. 기존의 엔비디아도 오픈소스 생태계를 위한 언어모델 네모트론을 시리즈별로 발표하기는 했었는데 반응이 그럭저럭이었습니다. 3같은경우 Access 신청을 받아서 써볼수가 있었는데요. 현재 허깅페이스에는 네모트론3가 업로드가 되있긴합니다. nvidia/nemotron-3-8b-base-4k · Hugging Face Nemotron-3-8B-Base-4k Model Overview License The use of this model is governed by the NVIDIA AI Foundation Models Community License Agreement. Description Nemotron.. 2024. 2. 28.
LoRA+: Efficient Low Rank Adaptationof Large Models 짧은 논문리뷰 안녕하세요 Simon 입니다. NLP LLM 논문을 읽다보면 방대한 양에 지칠 때가 있는데요. 과연 이 논문 을 다 읽더라도 나에게 명확하게 인사이트를 줄 수 있을까? 란 생각이 항상 듭니다. 고효율은 아니라고 생각되어서, 이제 제가 필요한 인사이트가 아니라면? 과감하게 Abstrack 정도와 필수 개념만 보고 요약을 하려고 합니다. 아마 비슷하게 생각하실거라고 생각합니다. 오늘 리뷰해드릴 논문은 LoRA+ 튜닝 의 기존의 방법론보다 더 성능을 개선시키는 LoRA+ 라는 논문 입니다. LoRA+: Efficient Low Rank Adaptation of Large Models In this paper, we show that Low Rank Adaptation (LoRA) as originally in.. 2024. 2. 26.
AI 취업 시장의 변화 최근 AI 취업 시장의 변화에 대해서 유럽의 한 NLP 연구자가 쓴 글을 보고 블로그에 유입되는 분들에게도 도움이 될만할 것 같아서 소개해드리려고합니다. 이 글에서는, 지난 5년 동안 AI와 NLP 분야의 발전이 매우 빠르게 진행되었으며, 박사학위를 마친 후에 NLP 관련 취업 시장의 분야가 훨씬 더 다양해졌다고합니다. 아마 BERT, GPT와 같은 다양한 모델이 생긴 영향이 크며, 과거에는 ML 등과 같은 기초 연구에 집중되었다면 이제는 점차 실용적인 연구로 옮겨가고 있다고 합니다. 그로인해 PhD. 박사학위에 대한 대안으로 스타트업에서의 경험을 통해 실제 문제 해결 위주의 경력을 쌓는 것을 대안으로 볼 수 있다고 말하고 있습니다. 여기서 소개하는 5가지 AI 취업시장 트랜드는 다음과 같습니다. 1. .. 2024. 2. 13.
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2019년 구글이 발표한 BERT 논문 리뷰입니다. 출처 : https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations fro.. 2024. 2. 13.
LLM 데이터셋 관련 정리 - 대규모 원시 말뭉치 안녕하세요 Simon 입니다. 오늘은 LLM 데이터셋 관련 대규모 말뭉치에 관해 글을 정리해볼까 합니다. 오늘날의 GPT와 같은 모델들은 이 대규모 원시 말뭉치를 통해 Self-Supervised Training 이 되어 다양한 형태로 Fine-Tunning 되어 우리의 일상속에 들어와 있습니다. T5를 시작으로 엄청나게 발전을 많이 했는데요. 저도 2022년에 AI를 입문하게 되었고 자연어처리는 GPT가 나오고 배웠지만 거의 T5가 주류를 이루고 있었는데 현재 지금 엄청 빠르게 발전한 모습이네요. 그렇다면 이 LLM들을 어디서 학습데이터를 구하냐? 바로 우리 곁에 있습니다. 다들 한번쯤 해보신 크롤링을 통해서 데이터를 모을 수 있고, 위에 소개해드린대로 AIhub 와 같은 데이터센터에서 가져올 수 도 .. 2024. 1. 17.
프롬프트 엔지니어링의 새로운 방법 : PAL(Program-Aided Language Models) 의 원리와 실제 적용 사례 안녕하세요 Simon 입니다 오늘은 또 재미있는 새로운 프롬프팅 기법을 소개해드릴려고 합니다. PAL (프로그램지원언어모델) 입니다. 어떤 Application 을 구축함에 있어서 내가 원하는 형식의 Output 을 얻기 위해 LLM으로 부터 다양한 프롬프팅 방법과 프레임워크 등을 사용 하곤 하는데 이것도 Few-Shot 프롬프트의 종류로 원하는 숫자값, Date 값, 특정 값을 뽑아 낼 수 있도록 코드 인터프리터 프로그래밍 방식을 함께 런타임을 단계적으로 수행해서 해결해 나가는 기법입니다. 정답을 얻기 위해서 자유로운 텍스트 형식을 쓰기 때문에 CoT 와는 조금 차이가 있습니다. https://arxiv.org/abs/2211.10435 PAL: Program-aided Language Models L.. 2024. 1. 17.
[LangChain] LangChain이란 무엇인가? - (1) 안녕하세요, Benjamin입니다. 최근 다시 기본을 다지기 위해서 다시한번 Langchain방식에 대해서 깊이있는 공부를 시작하였고 관련해서 공부한 내용을 순서대로 잘 정리해보려합니다. 가장먼저 LangChain의 정의부터 시작해서 Quickstart를 통한 예제 실습까지 순차적으로 진행하며 글을 추가하겠습니다. Langchain 이란? 가장 먼저 https://python.langchain.com/docs/get_started/introduction Docs사이트에 나와있는 설명을 다시 정리해보았습니다. LangChain 은 언어 모델을 기반으로 한 애플리케이션 개발을 위한 프레임워크로, 다음과 같은 특징을 갖추고 있습니다. 문맥 인식 : Langchain은 언어 모델을 다양한 문맥 소스(프롬프트 지.. 2024. 1. 10.
Switch Transformers: Scaling to Trillion Parameter Modelswith Simple and Efficient Sparsity 논문 리뷰 안녕하세요 Simon 입니다. 오늘 리뷰해볼 논문은 MoE 모델의 아키텍처인 Switch Transformers 입니다. 사실 제가 딥러닝을 배우기전에 나왔던 논문인데 신기하게 다 언젠가는 빛을 바라는 순간이 오는거 같습니다. Abstrack 스위치 트랜스포머는 전통적인 딥러닝 모델의 한계를 극복하기 위해 개발된 새로운 접근 방식입니다. 기존 모델들이 모든 입력에 대해 동일한 매개변수를 사용하는 반면, 스위치 트랜스포머는 각 입력 예제마다 다른 매개변수를 선택하는 혼합(전문가 혼합) 모델을 채택합니다. 이 방식은 매개변수의 수를 크게 늘리면서도 계산 비용을 일정하게 유지합니다. 그러나 이러한 모델은 복잡성, 통신 비용, 그리고 훈련의 불안정성과 같은 문제들을 가지고 있었습니다. 스위치 트랜스포머는 이러한.. 2024. 1. 8.
오픈리더보드의 평가지표에 대해 안녕하세요 Simon 입니다. 오늘은 Open LLM Leaderboard 에서 순위를 평가하는 지표에 대해서 자세히 알아보겠습니다. https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4 huggingface.co 평가방식(Im-evaluation-harness) - 질문과 보기를 모델에 입력을 합니다. - 각 보기를 생성할 확률을 통해 예측을 수행합니다. - In-context Learning 을 위해 예제를 함께 삽입합니다. 질문 : 인구가 제일 많은 나라는? 보기 : (1) 중국 (2) 한국 (3) 미국 (4) 일본 [모델의 추론.. 2024. 1. 4.
A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 논문 리뷰 - (2) 안녕하세요 Simon 입니다. 오늘은 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 논문 리뷰 - (2) 입니다. https://wiz-tech.tistory.com/36 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 논문 리뷰 -(1) 개발자에게 유용한 Prompt 안녕하세요 Simon 입니다 오늘 소개해드릴 논문은 A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT 라는 논문입니다. 이 논문의 배경은 반더빌트 대학에서 GPT를 사용하면서 녹아낸 프롬프트 엔 wiz-tech.tistor.. 2023. 12. 29.
[Langchain] RAG 멀티모달을 활용한 추론 - 이력서 첨삭 튜터 안녕하세요, 여러분. 오늘은 최근에 접한 흥미로운 프로젝트, 바로 '멀티모달 이력서 첨삭 튜터'에 대해 이야기해보려 합니다. 이 프로젝트는 GPT-4 기반의 인공지능을 활용하여 이력서 작성과 첨삭을 돕는 혁신적인 시도인데요, 그 세부 내용을 한번 살펴보겠습니다. 멀티모달 이력서 첨삭 튜터의 개발 배경 이 프로젝트의 출발점은 사람들이 널리 사용하는 인공지능 이력서 서비스에 GPT-4 기반의 기능을 추가하여 더 향상된 서비스를 제공하고자 하는 아이디어였습니다. 특히, 비전 관련 기능을 첨삭하는 부분에 초점을 맞추었죠. 이는 기존의 텍스트 중심 이력서 서비스를 한 단계 끌어올리는 시도라고 할 수 있습니다. 기능 및 사용 방법 사용자는 자신의 이력서를 PDF 형식으로 업로드하고, 이력서와 관련된 질문을 입력합니.. 2023. 11. 30.
GPTs 로 Custom 챗봇 구축하기 안녕하세요 Simon 입니다. 저번에 소개해드렸던데로 Open AI 에서 대규모 업데이트 이후 기능인 GPTs를 활용해서 커스텀 챗봇을 개발해보았습니다. 회사에서 고객의 Prompt 를 정형화 하기 위해 Rule Base의 컨텐츠형으로 선택 후 모델이 응답 할 수 있게 챗봇을 구축하면 어떠냐는 아이디어를 팀장님들께서 던져주셨고 이를 그냥 ChatBot에 녹일수는 없나 고민을 해보았습니다. 역시 답은 Prompt 였습니다. 그래서 디자이너 챗봇과 고객응대 챗봇을 만들어봤습니다. 약묵자는 제가 맛집모임을 하고 있는데 뉴비를 위한 챗봇 Guide 를 만들면 재밌겠다 싶어서 실험으로 만들어봤는데 성능에 감탄을 했습니다. 우선 저희가 지금 계획하고 있는게 일본시장 공략과 Prompt 정규화를 어떻게 이끌어낼까에 .. 2023. 11. 15.
OpenAI의 Embedding을 이용한 ChatGPT Custom Chatbot 시스템 구축해보기 챗봇 개발은 AI와 머신러닝의 빠른 발전으로 인해 점점 더 중요해지고 있습니다. 특히, OpenAI의 GPT 모델을 활용하면 높은 수준의 대화 능력을 가진 챗봇을 만들 수 있습니다. 이 글에서는 ChatGPT를 활용한 Custom ChatBot 개발에 대한 전반적인 가이드와 함께, 토큰 제한과 대용량 데이터 처리 등의 문제를 어떻게 해결할 수 있는지에 대해 설명하겠습니다. 오늘은 ChatGPT로 나만의 커스텀 챗봇을 한번 만들어 보겠습니다. 준비물 : OpenAI API Key, Python 키워드 ChatGPT Custom ChatBot OpenAI 토큰 제한 대용량 데이터 처리 Embedding 기업들이 기업용 LLM 을 구축하기 위해서 많은 시간과 돈을 쓰면서 노력을 하고 있다고 합니다. 저의 업무.. 2023. 11. 15.
효과적인 AI 프롬프팅 전략을 위한 가이드 인공 지능(AI) 기술의 진화는 대화형 AI의 프롬프팅 기법에도 혁신적인 변화를 가져왔습니다. 특히 OpenAI의 GPT-4 같은 고급 모델에서는 사용자의 의도를 정확히 파악하고 적합한 결과를 도출하기 위해 구조화된 프롬프트 작성이 핵심적인 역할을 합니다. 이 글에서는 구조화된 프롬프트 작성을 위한 전략과 이를 효과적으로 활용하는 방법에 대해 설명하겠습니다. 1. 명확한 지침과 컨텍스트 제공 프롬프트는 사용자의 요구 사항을 분명하게 전달할 수 있도록 명확한 지침과 컨텍스트를 포함해야 합니다. 부정적인 표현보다는 명령문 형태로 지시를 제공하여 AI가 보다 효과적으로 행동을 이행하도록 해야 합니다. 예시: 잘못된 방식: "쓰지 마세요." 올바른 방식: "다음과 같이 작성해주세요." 2. 프롬프트 길이와 중복.. 2023. 11. 8.
728x90