본문 바로가기
728x90

AI108

빅테크 기업들의 소형모듈원전(SMR) 투자 현황과 시장 전망 최근 AI 산업의 발전으로 인해 여러 산업에서 영향을 미치고 있는데, 그중 특히 에너지 분야, 더 나아가서 원자력 발전 분야에서 큰 영향을 미치고 있습니다. 그로인한 기후변화 대응과 에너지 안보 강화를 위한 대안으로 소형모듈원전(SMR)이 주목받고 있습니다. 특히 아마존, 구글, 마이크로소프트 등 주요 빅테크 기업들이 적극적으로 SMR에 투자하며 기술 발전과 상용화에 대한 관심이 커지고 있는데, 빅테크 기업들의 SMR 투자 현황과 향후 전망을 정리해 보겠습니다. 빅테크 기업들의 주요 SMR 투자 동향아마존 (Amazon)X-energy와 TerraPower에 총 10억 달러 규모의 전략적 투자를 진행하며 SMR 분야에 깊은 관심을 드러내고 있습니다. 특히 워싱턴 주에 Energy Northwest와 협력.. 2024. 10. 25.
앤트로픽, 클로드 3.5 모델 주요 업그레이드 발표 최근 Anthropic이 자사의 AI 모델인 Claude의 대대적인 업그레이드를 발표했습니다. 이번 발표에는 새로운 모델 “Claude 3.5 Sonnet”, 저비용 고성능 “Claude 3.5 Haiku”, 그리고 AI가 컴퓨터 인터페이스와 직접 상호작용할 수 있는 “컴퓨터 사용” 기능이 포함되어 있습니다. 각 모델의 주요 특징과 업그레이드 내용을 살펴보겠습니다. Claude 3.5 Sonnet: 코딩 성능 향상Claude 3.5 Sonnet은 코딩 기능이 크게 향상된 모델로, 다양한 벤치마크에서 높은 성과를 기록했습니다. 주요 성과는 다음과 같습니다:SWE-bench 검증 점수: 기존 33.4%에서 49.0%로 크게 상승하며, 모든 공개 모델을 능가했습니다.TAU-bench 성능 개선: 소매 분야에서.. 2024. 10. 24.
OpenAI의 새로운 혁신, GPT-4o 모델 공개 텍스트, 음성, 영상 처리까지 가능한 멀티모달 AI의 등장  GPT-4o의 주요 특징 요약:무료 텍스트 및 이미지 기능 제공: 무료 사용자도 텍스트와 이미지 분석 기능을 사용할 수 있습니다.멀티 모달 처리: 텍스트, 음성, 영상 데이터를 동시에 입력받아 처리할 수 있습니다.실시간 상호작용: 인간처럼 자연스러운 실시간 대화가 가능합니다.향상된 성능: 기존 모델에 비해 2배 빠른 API와 높은 성능을 제공합니다.다양한 언어 지원: 50개 언어에서 뛰어난 성능을 보이며, 특히 비영어권 언어에서도 높은 효율을 제공합니다.  OpenAI가 새로운 인공지능 모델 GPT-4o를 발표했습니다. GPT-4o는 '옴니(omni)'라는 이름처럼 텍스트, 음성, 영상 데이터를 모두 처리할 수 있는 멀티모달 AI 모델입니다. .. 2024. 5. 14.
꽃 이미지로 배우는 CNN 모델 구현 및 평가 딥러닝 기술이 급속도로 발전하면서, 이미지 분류는 다양한 분야에서 중요한 역할을 수행하게 되었습니다. 오늘은 TensorFlow를 사용하여 꽃 이미지를 분류하는 간단한 컨볼루션 신경망(CNN) 모델을 구현하고 평가해 보겠습니다. 데이터셋 준비하기 프로젝트를 시작하기 전, 먼저 TensorFlow의 데이터셋 라이브러리에서 제공하는 꽃 이미지 데이터셋을 다운로드합니다. 이 데이터셋은 다섯 가지 종류의 꽃 이미지(데이지, 덴델리온, 장미, 해바라기, 튤립)로 구성되어 있으며, 총 3,700장의 사진을 포함하고 있습니다. 모델 구성하기 이미지 분류를 위한 CNN 모델을 구성합니다. 모델은 여러 개의 컨볼루션 레이어와 풀링 레이어를 포함하며, 마지막에는 완전 연결 레이어를 통해 분류를 수행합니다. 모델 학습 및 .. 2024. 3. 15.
텍스트처리로 문장에 감성분석 인공지능(AI) 기술이 급속도로 발전함에 따라, 자연어 처리(NLP)는 다양한 분야에서 중요한 역할을 하고 있습니다. 오늘은 AI-HUB의 감정 말뭉치 데이터를 활용해 텍스트 기반의 언어 모델을 만들고, 이를 통해 감정 분류를 실습해보겠습니다. 이 과정은 크게 두 부분으로 나뉩니다: 첫째, 머신러닝을 사용한 감정 분류와, 둘째, LSTM 모델을 사용한 감정 분류입니다. 자연어 처리의 기본 단계 자연어 처리 프로젝트는 대체로 다음과 같은 순서로 진행됩니다: 전처리: 데이터 클리닝, 정규화 등 토큰화: 텍스트를 개별 단어나 표현으로 분리 벡터화: 텍스트를 숫자로 변환 모델링: 데이터를 기반으로 학습 진행 평가 및 예측: 모델 성능 평가 및 새로운 데이터에 대한 예측 A. 머신러닝을 이용한 감정 분류 머신러닝.. 2024. 3. 15.
W5X00-EVB-Pico with SSL/TLS 안녕하세요 Acorn입니다. 오늘은 W5X00-EVB-Pico종류 보드에 SSL/TLS 통신을 붙여서 https 통신을 할 수 있게끔 하는 방법을 포스팅 해보고자 합니다. 1. Serial통신에서 https를 지원하지 않는 이유 Serial 통신은 간편하고 저렴하지만, 보안 측면에서 취약합니다. 암호화되지 않은 데이터를 그대로 전송하기 때문에 악의적인 공격자가 데이터를 엿보거나 위조할 수 있습니다. 특히 비밀번호나 민감한 정보를 전송하는 경우 위험합니다. HTTPS는 SSL/TLS 프로토콜을 사용하여 데이터를 암호화하여 안전하게 전송합니다. 이는 웹 브라우저와 서버 간 통신에 널리 사용되는 기술입니다. 따라서 Serial 통신만 지원하는 W5X00-EVB-Pico 보드를 사용하여 안전하게 데이터를 전송하.. 2024. 3. 8.
Prompt Engineering with Llama 2 무료강의 소개 안녕하세요, 최근 알게된 유익한 무료 강의가 있어 소개해드리고자합니다. Meta와 DeeplearningAI에서 제공하는 약 1시간 정도되는 영어로되어있는 강의로, Llama2 Chat, Code Llama(코드 라마), 그리고 라마 가드(Llama Guard) 모델에 대해 간단히 알려주고 활용법도 Jupyter노트북으로 실습 환경을 제공해주어 많은 도움이 되었습니다. 모델 소개부터 프롬프트 엔지니어링(Prompt Engineering) 기법 소개, Multi-turn 대화 방식 등에 대해서 코드로 설명해준다는 점이 좋았고,일단 무엇보다 짧아서 부담없이 들을 수 있어서 좋았습니다. Llama, Code Llama, Llama Gaurd 그리고 프롬프트 엔지니어링에 관심있는 분들은 부담없이 들을만한 좋은 .. 2024. 3. 6.
Attention Mechanism 이란? - (1) 어텐션이란? 풀고자 하는 Task의 핵심이 되는 정보를 찹아서 집중한다! 주의 주목, 관심 흥미, 뉴진스 어텐션! 등 다양한 뜻으로 쓰이고 있습니다. 자연어 처리 NLP 분야의 혁신으로 이끈 논문 All you need is attention 이란 논문을 다들 읽어보셨을거라고 생각합니다. Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder thr.. 2024. 3. 4.
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 논문 리뷰 안녕하세요 Acorn입니다. 오늘 리뷰할 논문은 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits입니다. Geeknews에서도 소개되었고, 유튜버 조코딩님께서도 라이브에서 언급했던 만큼 제법 이슈가 있고, 엣지 디바이스에서 LLM을 이용하여 서비스를 이용하고자 하는 사람들에게는 유용한 내용인 것 같아 소개해봅니다. 링크 https://news.hada.io/topic?id=13573 1비트 LLM 시대: 비용 효율적인 컴퓨팅을 위한 삼진 파라미터 | GeekNews 1비트 대형 언어 모델의 시대: 모든 대형 언어 모델은 1.58비트에 있다최근 연구인 BitNet은 1비트 대형 언어 모델(LLMs)의 새로운 시대를 열고 있음.이 연구에서는.. 2024. 3. 4.
Large Language Models for Data Annotation: A Survey 논문 리뷰 안녕하세요 Acorn입니다. 안녕하세요 오늘 소개해드릴 논문 리뷰는 Large Language Models for Data Annotation: A Survey 입니다. 데이터 주석에 대한 다양한 관점에서 조사가 이루어졌고, 각 분야에 대한 최신 연구 동향을 소개해주는 논문입니다. 배경색은 의미를 내포하고 있습니다! 파란 배경 : 중요하다 생각하는 부분 빨간 배경 : 내 의견이 반영된 부분 논문 링크 : https://arxiv.org/abs/2402.13446 Abstract 데이터 주석은 머신러닝 모델의 성능을 향상시키기 위해 필수적인 과정입니다. 그러나 이 작업은 시간과 비용을 많이 소모합니다. 그렇기에 최신 LLM 모델인 GPT-4를 사용하여 자동화 하는 많은 방법론들이 탄생하고 있습니다. 이 백.. 2024. 2. 29.
Nemotron-4 15B Technical Report 논문 리뷰 안녕하세요 오늘 소개해드릴 논문 리뷰는 Nvidia 의 오픈소스 언어모델 Nemotron-4 15B 입니다. 기존의 엔비디아도 오픈소스 생태계를 위한 언어모델 네모트론을 시리즈별로 발표하기는 했었는데 반응이 그럭저럭이었습니다. 3같은경우 Access 신청을 받아서 써볼수가 있었는데요. 현재 허깅페이스에는 네모트론3가 업로드가 되있긴합니다. nvidia/nemotron-3-8b-base-4k · Hugging Face Nemotron-3-8B-Base-4k Model Overview License The use of this model is governed by the NVIDIA AI Foundation Models Community License Agreement. Description Nemotron.. 2024. 2. 28.
Gemma: Open Models Based on GeminiResearch and Technology 논문 리뷰 Gemma: Introducing new state-of-the-art open models Gemma is a family of lightweight, state\u002Dof\u002Dthe art open models built from the same research and technology used to create the Gemini models. blog.google 안녕하세요 Simon 입니다. 오늘 소개해드릴 논문은 Google 의 새로운 Open Source LLM "Gemma" 입니다. LLaMA 의 영향일까요? 빅테크 기업들도 앞다투어 오픈소스 모델을 공개하고 있는데요. OpenAI 도 조만간 공개할듯합니다. 과연 Gemini 기반의 Gemma 는 어떻게 탄생한것인지 리뷰해보겠습니.. 2024. 2. 27.
LoRA+: Efficient Low Rank Adaptationof Large Models 짧은 논문리뷰 안녕하세요 Simon 입니다. NLP LLM 논문을 읽다보면 방대한 양에 지칠 때가 있는데요. 과연 이 논문 을 다 읽더라도 나에게 명확하게 인사이트를 줄 수 있을까? 란 생각이 항상 듭니다. 고효율은 아니라고 생각되어서, 이제 제가 필요한 인사이트가 아니라면? 과감하게 Abstrack 정도와 필수 개념만 보고 요약을 하려고 합니다. 아마 비슷하게 생각하실거라고 생각합니다. 오늘 리뷰해드릴 논문은 LoRA+ 튜닝 의 기존의 방법론보다 더 성능을 개선시키는 LoRA+ 라는 논문 입니다. LoRA+: Efficient Low Rank Adaptation of Large Models In this paper, we show that Low Rank Adaptation (LoRA) as originally in.. 2024. 2. 26.
Groq AI 반도체와 아키텍처로 시장의 새로운 패러다임 TSP 안녕하세요 Simon 입니다. 요즘 AI 업계가 기술의 발전의 속도가 ChatGPT 이 후로 가속화를 넘어서 광속화가 진행되고 있는 느낌인데요. Gemini1.5Pro, SorA를 넘어서 더 충격적인 AI 반도체 관련 소식입니다. Groq groq.com 미국 실리콘 밸리의 스타트업 Groq가 텐서스트리밍 프로세서(TSP) 아키텍처를 통해 AI 아키텍처 시장에서 새로운 지평을 열고 있습니다. 이들의 기술은 단일 칩에서 초당 천 조(Peta) 회 작동을 수행하는 놀라운 성능을 자랑하며, 이는 초당 최대 250조의 부동 소수점 연산(FLOPS) 처리 능력을 의미합니다. Groq의 TSP 아키텍처는 기존의 GPU 및 CPU 아키텍처와 달리 동기화 오버헤드 없이 컴퓨팅 유연성과 대규모 병렬성을 제공하는 새로운 .. 2024. 2. 22.
SELF-DISCOVER: Large Language Models Self-Compose Reasoning Structures 논문리뷰 Self-Discover: Large Language Models Self-Compose Reasoning Structures We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the task-intrinsic reasoning structures to tackle complex reasoning problems that are challenging for typical prompting methods. Core to the framework is a self-discovery process whe arxiv.org 안녕하세요 Simon 입니다. 오늘은 SELF_DISCOVER 라는 또 한번 CoT를 넘어서는 방법론에 대해.. 2024. 2. 22.
Chat With RTX 사용방법과 후기 안녕하세요 Simon 입니다. 기업가치 4위가 된 nvidia에서 LLM 활용을 위한 새로운 도구를 배포했습니다. 이름하여 Chat with RTX 로 자신들의 그래픽카드에서 작동 할 수 있는 챗봇입니다. NVIDIA Chat With RTX 나만의 맞춤형 AI 챗봇. www.nvidia.com 여러가지의 기능이 지원되는데 모델을 선택하고, 데이터를 선택한 후 챗봇에 질문을 하면 리스폰 받는 형태인것 같습니다. 아직 RTX3X, 4X 시리즈에서 DEMO 로 지원을 한다고 합니다. version 이 현재 0.2 기준으로 이 글은 작성되었고 추후 업데이트는 계속 진행될듯 보입니다. 설치방법 위의 공식홈페이지에서 다운로드를 합니다. 비교적 높은 사양을 보여주고 있습니다. 아무래도 LLM 자체가 인퍼런스도 꽤 .. 2024. 2. 20.
[논문 리뷰] DoRA: Weight-Decomposed Low-Rank Adaptation 논문 링크 : https://arxiv.org/abs/2402.09353 DoRA: Weight-Decomposed Low-Rank Adaptation Among the widely used parameter-efficient finetuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full arxiv.org 현재 주목받는 효과적인 파라미터 최적화 방법인 LoRA는 저순위 분해(low-rank.. 2024. 2. 19.
L2P - LLM to Pico 안녕하세요 Acorn입니다. 오늘은 WIZnet의 제품인 W5500-EVB-Pico를 사용해서 OpenAI API를 호출하여 사용해보려고 합니다. W5500이 저렴한 가격에 S2E를 지원하는 제품인만큼, PC나 클라우드를 연동하여 사용하여 서비스를 구현하면 가격대비 굉장히 매력있는 컨텐츠가 나올 수 있다 생각합니다. 이미 STM32나 SparkFun Edge같은 제품의 경우 AIoT를 많은 부분에서 적용하였고, 실제로 많은 AIoT 컨텐츠들이 시중에 나와있으나, 아직 LLM과 보드를 융합시키는 움직임은 보이지 않는 것 같습니다. 그래서 저희 제품인 W5500-EVB-Pico를 사용해 정말 저렴하게 언어모델을 사용할 수 있는 방법에 대해 소개해보고자 합니다. https://maker.wiznet.io/si.. 2024. 2. 16.
구글의 차세대 모델 Gemini 1.5 Pro 발표 Gemini 1.5 Pro 안녕하세요 Simon 입니다. 구글이 또 엄청난걸 발표했습니다. 1,000,000개의 context windows를 적재 할 수 있는 Gemini 1.5 Pro 입니다. ChatGPT-4-turbo 가 나왔을떄 132,000개도 대단하다 하는 수치였는데 그 8배의 수치 입니다. 사실 Gemini 가 처음 등장할떄 허위광고다 논문에도 맨 밑에 GPT-4 보다 결국 성능이 안좋은거 아니냐 우려섞인 모습이 많았는데 다 잠식되고 생각보다 안정적인 모델로 평가를 받고 있습니다. 또한 1 Pro 를 무료로 60회 호출 한정해서 쓸 수 있었기 때문에 유저들의 만족을 주지 않았나 생각합니다. Gemini 1.5 Pro ? 구글은 최근 차세대 AI 모델인 제미나이(Gemini) 1.5를 발표했.. 2024. 2. 16.
Open AI 의 새로운 Text to Video SORA 공개 SORA - Text to Video 안녕하세요 Simon입니다. 오늘 새벽은 정말 바쁘네요. 자고 일어났더니 마구마구 쏟아져 나오고 있습니다. Open AI에서 새로운 신기술을 발표했습니다. 언어모델만 잘하는 open AI 가 아니라 2024년은 text to video의 해라고 할 정도로 많은 동영상 관련 생성형 AI 기술이 쏟아지는 가운데 openAI 가 신호탄을 쏟아 올렸습니다. OpenAI가 최근 발표한 Sora 모델은 텍스트 지시에 따라 현실적이고 상상력이 풍부한 장면을 생성할 수 있는 AI 모델입니다. 이 모델은 사용자의 프롬프트에 충실하면서 시각적 품질을 유지하고 최대 1분 길이의 비디오를 생성할 수 있습니다. Sora는 복잡한 장면, 여러 캐릭터, 특정 유형의 움직임, 그리고 주제와 배경.. 2024. 2. 16.
Stream을 아시나요? ChatGPT 를 사용하다보면 기존의 챗봇에서 타자를 마치 사람이 치는것처럼 '타타타타타닥' 하면서 글자들이 출력되곤 하는데요. 챗봇을 구축할때 나도 저걸 할 수 없을까 생각을 한적이 있습니다. 막상 아 그냥 프론트엔드 영역이겠지~ 하고 넘어갔는데요. 손쉽게 구현이 가능 했습니다. Streaming | 🦜️🔗 Langchain All ChatModels implement the Runnable interface, which comes with python.langchain.com LCEL object 에서 stream 이 사용이 가능한데요. 모델이 토큰을 다 생성되고 출력을 해주는게 아니고 생성되는 토큰마다 바로 출력물을 제공하도록 Chunk 단위로 쪼개서 출력을 시켜주는 방식입니다. 여기에 time.s.. 2024. 2. 15.
Ollama를 활용한 VScode 로 Local GithubCopilot 만들기 - (3) Ollama를 활용한 아이폰으로 Ondevice AI 구축하기 안녕하세요 Simon 입니다. On-device AI 시대가 열리면서 삼성의 갤럭시 스마트폰은 AI 를 넣어서 출시가 되고 있고, 아마 최근에 막말로 유명한 샘알트만이 그리는 반도체 시장의 생태계 또한 모든 wiz-tech.tistory.com Ollama를 활용한 맥북 Github Copilot 구축하기 - (2) Ollama를 활용한 아이폰으로 Ondevice AI 구축하기 안녕하세요 Simon 입니다. On-device AI 시대가 열리면서 삼성의 갤럭시 스마트폰은 AI 를 넣어서 출시가 되고 있고, 아마 최근에 막말로 유명한 샘알트 wiz-tech.tistory.com 안녕하세요 이번에는 Ollama를 활용해서 2탄에 mac 의 장점을.. 2024. 2. 15.
Ollama를 활용한 맥북 Github Copilot 구축하기 - (2) Ollama를 활용한 아이폰으로 Ondevice AI 구축하기 안녕하세요 Simon 입니다. On-device AI 시대가 열리면서 삼성의 갤럭시 스마트폰은 AI 를 넣어서 출시가 되고 있고, 아마 최근에 막말로 유명한 샘알트만이 그리는 반도체 시장의 생태계 또한 모든 wiz-tech.tistory.com 안녕하세요 Simon 입니다. Ollama 로 아이폰에 Ondevice 형태의 어플로 구축하는 방법을 소개해드렸는데요. 이어서 M1 시리즈의 노트북을 보유하고 있다면 구독료 없이 코파일럿 형태의 서비스를 쓸 수 있을듯한 Idea가 떠올라서 글을 한번 써보겠습니다. Ollama 는 무엇인가? Ollama 는 오픈소스 프로젝트로 Hype이 되어 더욱 커지고 있는 프레임워크의 Tool 개념이라고 생각합니다... 2024. 2. 15.
Ollama를 활용한 아이폰으로 Ondevice AI 같은 서비스 구축하기 안녕하세요 Simon 입니다. On-device AI 시대가 열리면서 삼성의 갤럭시 스마트폰은 AI 를 넣어서 출시가 되고 있고, 아마 최근에 막말로 유명한 샘알트만이 그리는 반도체 시장의 생태계 또한 모든 디바이스가 AI Chip 이 들어간다면 현실적으로 9000조라는게 가능할?수도 라는 생각이 드는데요. Linkdin Facebook 다양한 AI 관련커뮤니티에서 항상 화제가 되고 있는 Ollama 를 활용한 Application 실행을 해볼려고 합니다. "아이폰에서 LLaMA2 실행하기" Ollama 는 무엇인가? Ollama 는 오픈소스 프로젝트로 Hype이 되어 더욱 커지고 있는 프레임워크의 Tool 개념이라고 생각합니다. Open LLM 에서 Llama 2, Mistral 및 기타 대규모 언어 .. 2024. 2. 15.
[논문 리뷰] V-STaR: Training Verifiers for Self-Taught Reasoners 논문 링크 : https://arxiv.org/abs/2402.06457 V-STaR: Training Verifiers for Self-Taught Reasoners Common self-improvement approaches for large language models (LLMs), such as STaR (Zelikman et al., 2022), iteratively fine-tune LLMs on self-generated solutions to improve their problem-solving ability. However, these approaches discard the large amounts arxiv.org 기존 LLM들의 Self-Taught 방법론들은 스스로 생성한 해결책.. 2024. 2. 14.
AI 취업 시장의 변화 최근 AI 취업 시장의 변화에 대해서 유럽의 한 NLP 연구자가 쓴 글을 보고 블로그에 유입되는 분들에게도 도움이 될만할 것 같아서 소개해드리려고합니다. 이 글에서는, 지난 5년 동안 AI와 NLP 분야의 발전이 매우 빠르게 진행되었으며, 박사학위를 마친 후에 NLP 관련 취업 시장의 분야가 훨씬 더 다양해졌다고합니다. 아마 BERT, GPT와 같은 다양한 모델이 생긴 영향이 크며, 과거에는 ML 등과 같은 기초 연구에 집중되었다면 이제는 점차 실용적인 연구로 옮겨가고 있다고 합니다. 그로인해 PhD. 박사학위에 대한 대안으로 스타트업에서의 경험을 통해 실제 문제 해결 위주의 경력을 쌓는 것을 대안으로 볼 수 있다고 말하고 있습니다. 여기서 소개하는 5가지 AI 취업시장 트랜드는 다음과 같습니다. 1. .. 2024. 2. 13.
Hmm...something seems to have gone wrong ChatGPT 에러 대처 가끔 이런 에러가 뜨곤한다. Hmm...something seems to have gone wrong. error 알수 없는 이유로 뜨곤하는데 갑자기 잘되다가 여러가지 원인을 확인해보는 것을 추천한다. 1. Open AI 서버 확인 https://status.openai.com/ OpenAI Status All Systems Operational API ? Operational 90 days ago 99.88 % uptime Today ChatGPT ? Operational 90 days ago 99.86 % uptime Today Labs ? Operational 90 days ago 99.95 % uptime Today Playground ? Operational 90 days ago 100.0 % .. 2024. 2. 13.
Corrective Retrieval Augmented Generation 논문 리뷰 안녕하세요 오늘 소개해드릴 논문은 Corrective RAG 라는 주제의 논문 입니다. 사실 설에 링크드인과 트위터 알람에서 자꾸 이 실험에 관련된 게시글이 많이 보였습니다. 아 이거 중요하겠구나 싶어서 오늘 읽고 리뷰를 하게 되었습니다. 언제나 제 논문은 한글 번역 후 요약 정리 중요하게 생각되는 점을 기록하면서 리딩을 하고 있습니다. 참고해주시길 바랍니다. 논문 원본 Corrective Retrieval Augmented Generation Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric kno.. 2024. 2. 13.
Fine-tune Mixtral 8x7B (MoE) on Custom Data 코드 리뷰 안녕하세요 Simon 입니다. 오늘은 조금 색다르게 코드 리뷰를 해볼 생각입니다. 작년 말 MoE 전문가 네트워킹 라우팅 방식의 트랜스포머 기반의 MoE 를 리뷰해드린적 있는데 이게 성능도 좋고 실제로, 많이 보이고 있습니다. 우연히 유투브를 보다가 가볍게 커스텀데이터를 파인튜닝 할 수 있는 코드를 찾았고 이에 관련하여 리뷰를 해보겠습니다. Fine-tune Mixtral 8x7B (MoE) on Custom Data - Step by Step Guide !pip install transformers trl accelerate torch bitsandbytes peft datasets -qU !pip install flash-attn --no-build-isolation from datasets impo.. 2024. 2. 13.
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2019년 구글이 발표한 BERT 논문 리뷰입니다. 출처 : https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations fro.. 2024. 2. 13.
728x90