본문 바로가기
AI/Study

[LangChain] LangChain이란 무엇인가? - (1)

by 벵자민 2024. 1. 10.
728x90

안녕하세요, Benjamin입니다.

 

최근 다시 기본을 다지기 위해서 다시한번 Langchain방식에 대해서 깊이있는 공부를 시작하였고 관련해서 공부한 내용을 순서대로 잘 정리해보려합니다. 가장먼저 LangChain의 정의부터 시작해서 Quickstart를 통한 예제 실습까지 순차적으로 진행하며 글을 추가하겠습니다.

 

Langchain 이란?

가장 먼저 https://python.langchain.com/docs/get_started/introduction Docs사이트에 나와있는 설명을 다시 정리해보았습니다.

 

LangChain 은 언어 모델을 기반으로 한 애플리케이션 개발을 위한 프레임워크로, 다음과 같은 특징을 갖추고 있습니다.

  • 문맥 인식 : Langchain은 언어 모델을 다양한 문맥 소스(프롬프트 지시사항, Few-shot 예제, 응답을 기반으로 하는 콘텐츠 등)와 연결하여 문맥을 인식할 수 있도록 합니다.
  • 추론 능력 : 제공된 문맥에 기반하여 어떻게 대답할지, 어떤 행동을 취할지에 대해 언어 모델이 추론을 수행할 수 있습니다.

또, LangChain은 여러 부분으로 구성되어 있습니다.

  • LangChain 라이브러리: Python과 JavaScript 라이브러리로, 다양한 컴포넌트의 인터페이스와 통합, 컴포넌트를 체인과 에이전트로 결합하는 기본 런타임, 그리고 체인과 에이전트의 현장 구현을 제공합니다.
  • LangChain 템플릿: 다양한 작업을 위한 쉽게 배포할 수 있는 참조 아키텍처 모음
  • LangServe: Langchain 체인을 REST API로 배포하는 라이브러리
  • LangSmith: 어떠한 LLM 프레임워크에서 구축된 체인을 디버깅, 테스트, 평가, 모니터링 할 수 있는 개발자 플랫폼으로, Langchain과 원할하게 통합됩니다.

Langchain 구성도

 

이러한 제품들은 전체 애플리케이션 수명주기를 단순화 합니다.

  • 개발: LangChain이나 LangChain.js에서 애플리케이션을 작성하세요. 템플릿을 참조하여 빠르게 시작할 수 있습니다.
  • 생산화: LangSmith를 사용하여 체인을 검사, 테스트, 모니터링함으로써 지속적으로 개선하고 자신감을 갖고 배포할 수 있습니다.
  • 배포: LangServe를 사용하여 어떤 체인이든 API로 변환하세요.

정리하자면, Langchain은 자연어 처리(NLP)를 위한 파이썬 및 자바스크립트 라이브러리로, 대화형 AI 시스템 구축과 연구에 필수적인 도구를 제공합니다. 이 라이브러리는 챗봇 생성, 텍스트 생성, 요약, 번역 등 다양한 NLP작업을 수행할 수 있는 기능을 포함하고 있습니다. 또한 기존의 LLM 모델이 시스템과 쉽게 통합할 수 있도록 설계되어 있어 개발자들이 원활하게 새로운 대화형 AI 모델을 실험하고 개발하는데 도움이 되는 유용한 라이브러리입니다.

 

LangChain의 특징

LangChain의 주요 이점 중 하나는 복잡한 대형 언어 모델(LLM)을 단순하게 구현할 수 있다는 점입니다. 특히 GPT-3.5같은 모델이 긴 문맥을 처리하는데 한계가 있을 때, LangChain은 더 긴 문맥적 정보와 상호 작용할 수 있도록 도와줍니다. 또한, 많은 부분이 '블랙 박스'처럼 작동하는 LLM에서, LangChain은 명확한 출처가 있는 텍스트를 생성함으로써 환각(Hallucination) 문제를 어느정도 해결할 수 있습니다.

 

또, Langchain은 특히 챗봇과 같은 대화형 AI 시스템을 구축하는데 있어서 중요한 역할을 합니다. 복잡한 코딩 과정 없이도 사용자 친화적인 대화형 시스템을 쉽게 구축할 수 있습니다. LangChain이 제공하는 텍스트 생성, 요약, 번역과 같은 기능들은 AI 기반의 대화형 시스템을 더욱 효과적이고 다양하게 만들어줍니다. 이는 기업이나 개인 사용자들이 자신의 필요에 맞게끔 커스터마이징된 대화형 시스템을 만들 수 있도록 도와줍니다. 사용자의 요구에 맞게 쉽게 조정되고 확장될 수 있어, 다양한 유형의 프로젝트와 연구에 적합합니다. 

 

다시한번 Langchain의 특징을 정리해보면,

  1. 챗봇 구축 : LangChain은 대화형 AI 시스템을 구축하는데 필수적인 도구를 제공하며 사용자가 손쉽게 자신만의 챗봇을 만들 수 있도록 도와줍니다.
  2. 다양한 NLP 기능 : LangChain 라이브러리는 텍스트 생성, 요약, 번역 등과 같은 다양한 자연어 처리 기능을 포함함으로서 자연어처리 작업을 보다 효율적으로 수행할 수 있습니다.
  3. Plug and Play Architecture : Langchain을 사용하면 기존의 NLP 모델이나 시스템과 쉽게 통합할 수 있으며 이를 통해 다양한 언어 모델과 기능을 손쉽게 결합하여 사용할 수 있습니다.
  4. 확장성 및 커스터마이징: 사용자는 자신의 요구사항에 맞게 LangChain을 커스터마이즈하고 확장할 수 있습니다. 특히 Resercher나 Developer들에게 유용한 특징입니다.
  5. 연구 및 개발 지원: LangChain은 새로운 대화형 AI모델의 실험과 개발을 지원합니다. 이 라이브러리는 복잡한 NLP 시스템을 보다 쉽게 구축하고 실험할 수 있도록 도와줍니다.

이러한 특징들로 인해 LangChain은 대화형 AI와 NLP분야에 관심 있는 이들에게 매우 유용한 도구로 자리 잡고 있습니다. LangChain을 통해 사용자는 AI 기술의 미래를 탐구하고, 그 가능성을 확장할 수 있습니다.

 

RAG(Retrieval-Augmented Generation)의 이해

다음으로 위에서 설명드린 LangChain의 주요 기술인 RAG에 대해서도 정리가 필요할 것 같습니다. 블로그 글에 자주 소개되었지만, 공식 문서에서 소개된 내용을 다시한번 정리해보았습니다. 

 

RAG(Retrieval-Augmented Generation)란 쉽게 말해서 LLM의 지식을 추가 데이터로 증강하는 기술입니다. LLM은 광범위한 주제에 대해 추론할 수 있지만, 그 지식은 훈련된 특정 시점까지의 공개 데이터로 제한됩니다. 만약 사적 데이터나 모델의 컷오프 날짜 이후의 데이터에 대해 추론할 수 있는 AI어플리케이션을 구축한다면, 모델의 지식을 필요한 특정 정보로 증강해야합니다. 이때 적절한 정보를 가져와 모델 프롬프트에 삽입하는 과정을 RAG라고 합니다.

 

전형적인 RAG 어플리케이션은 주로 두가지 주요 구성 요소로 이루어져 있습니다.

  1. 색인 생성 (Indexing)
    • 데이터 소스에서 데이터를 수집하고 색인화하는 파이프라인 입니다. 이 작업은 일반적으로 오프라인에서 진행합니다.
    • 데이터 로드, 텍스트 분할(큰 문서를 작은 청크로 나누기), 저장 및 색인화(검색을 위해 VectorStore와 Embeddings 모델 사용)의 과정을 포함합니다.
  2. 검색 및 생성 (Retrieval and Generation)
    • 사용자의 질문에 대해 관련 데이터를 색인에서 검색하고, 그 후 모델에 전달해주는 실제 RAG 체인입니다.
    • 검색 과정(Retrieve) 에서는 사용자 입력에 대해 관련 분할 저장소에서 검색하고, 생성(Generate) 과정에서는 질문과 검색된 데이터를 포함한 프롬프트를 사용하여 ChatBodel / LLM이 답변을 생성합니다.

RAG Architecture (Indexing / Retrieval and generation)

이러한 RAG 방식의 어플리케이션은 데이터를 인덱싱하고, 검색 및 생성 과정을 통해 사용자의 질문에 대한 관련 정보를 검색하여 정확한 답변을 생성하는 과정을 포함합니다.

 

 

지금까지 많은 RAG방식 예제들을 다뤄보고 챗봇도 구현해보았지만 공식 문서에서 제공하는 정확한 정의를 이해해볼 수 있는 유익한 시간이었다고 생각됩니다. 다음에는 Langchain에서 지원하는 다양한 모듈에 대해서 더 깊이 정리해보고자합니다. 갈길이 머네요..

728x90