본문 바로가기
728x90

AI/개발일지7

WIZnet 챗봇 개발일지 - 데이터 정제 과정 안녕하세요, Acorn입니다. 오늘은 챗봇 파인튜닝을 위한 데이터 정제 과정에 대한 심도 있는 분석을 공유하려 합니다. 데이터 정제는 고품질 챗봇 개발의 핵심 요소로, 본 글에서는 이 과정을 체계적으로 접근하는 방법을 탐구합니다. 아래는 제가 기획하면서 만들었던 prototype 설계 과정입니다. 먼저, 고객과 매니저 간의 일상적 대화를 효과적인 학습 데이터셋으로 변환하는 전처리 작업의 중요성을 강조하고자 합니다. 이 과정에서 다양한 전처리 방법론을 모색하고 GPT의 일반화 능력을 활용하여 이를 최적화하는 방안을 모색했습니다. 그래서 간단하게 GPTs를 통해 확인을 해보았습니다. 고객-엔지니어 대화 뭉치만을 입력해도 위와같이 Q,A 데이터 세트로 구분을 해주는 것을 확인했습니다. 그래서 GPT API를 .. 2024. 2. 7.
챗봇 구축 방법론을 생각해보다 챗봇 구축 W5100, W5500, W5100S 과 같이 제품군이 있는 Docs 정보를 토대로 검색증강생성 모델 챗봇을 구축하려고한다. 적용대상 : 실시간 챗봇 우선순위 (1) 포럼 QnA 자동답변기능 (2), 채널톡 자동답변(3) 데이터 : 제품군별 독스 모델이 이해할 수 제품군별 이해하도록 최대한 연관시켜서 재 가공 h/w engineer 가 매달 실제 고객과 상담한 상담내용을 토대로 자체 QnA(faq) 데이터셋 제작 모델 : OpenAI 쓸 예정 모두 (GPT3.5, GPT4) 오픈소스는 성능이 안좋음 , 한국어파인튜닝도 작업해야하는 우려 코드나, 핀맵을 출력하는 경우 token 제한 이슈 적용 방법론: VectorDB all data (Chunk size 고려) ChatGPT - fine-tun.. 2024. 1. 29.
LLM 구조를 파이프라인화해서 랭체인을 쓰면될까? 어제 소프트웨어개발자 의 조언대로 카테고리를 확실히 나누고 목표설정에 대한 구체화를 진행하라는 피드백이 있었다. 번뜩 아이디어가 떠올랐고 AI 관점에서 AI 가 다해주겠지라는 막연한 생각과 함께 구조화 파이프라인을 하지 않았다. 그래서 그런지 항상 파운데이션 모델을 만드는것처럼 뭔가 자꾸 데이터를 합쳐서 튜닝을 한다던지 생각만 했었다. PLM 은 당연히 클러스터링이 잘 되지 않는다면 할루시네이션을 반복할 것이다. 1. RAG기반의 챗봇을 Vector DB를 나눠서 카테고리가 입력한 타겟에 대한 답변을 유도할 수 있도록 한다. -> 포럼 자동봇에는 대응이 가능하다. 포럼자체도 카테고리를 입력해야 글을 쓸 수 있으니 그건 개발자와 협의해서 코드를 수정하면 되는 부분 아마 신뢰성은 많이 올라갈 것이다. 2. .. 2024. 1. 24.
나만의 챗봇 Service해보기(2) : WIZnet Doc에 있는 데이터를 학습시키자! 안녕하세요 오늘은 나만의 챗봇 서비스해보기 2탄으로 돌아왔습니다. 오늘은 나만의 챗봇을 학습하기 위한 데이터를 가져오는 방법을 알려드리려고 합니다. 우선 데이터를 구축하기 위한 예시로 WIZnet의 doc를 가져와봅시다. 아래 Github링크를 들어가면 WIZnet의 doc를 마크다운 파일로 확인할 수 있습니다. https://github.com/Wiznet/document_framework GitHub - Wiznet/document_framework Contribute to Wiznet/document_framework development by creating an account on GitHub. github.com 이중 W5500를 예시로 가져왔습니다. ## W5500 ![W5500 Photo .. 2024. 1. 19.
나만의 챗봇 Service해보기(1) - 결과부터 보자. 안녕하세요 Acorn입니다. 최근에 저는 기술의 발전에 매료되어 있습니다. 특히 LLM 분야에서의 급속한 진보가 놀라울 따름인데요. 이번 프로젝트는 LLM, 특히 RAG를 통한 CustomChatbot 제작을 위한 공부를 하고, Streamlit을 통해 서비스화를 시켜보았습니다. Streamlit은 데이터 사이언스와 머신 러닝을 위한 빠르고 사용하기 쉬운 앱 프레임워크입니다. Python 기반으로 작동하기 때문에, 저와 같은 개발자들에게 친숙한 환경에서 작업할 수 있었습니다. Langchain은 최신의 언어 모델을 사용하여 다양한 언어 작업을 수행할 수 있는 라이브러리입니다. 이 두 도구를 결합하여, 쉽고 빠르게 서비스화할 수 있는 챗봇 프로젝트를 제작하였습니다. 아래 사이트는 제가 제작한 챗봇 사이트입.. 2024. 1. 18.
[Simon] 챗봇개발일지 - (1) RAG 챗봇을 구축하는 과정에서 그냥 Langchain 으로 Document 로더를 통해서 , Finecon, 크로마DB 와 같은 Vector DB 로 임베딩을 한 후 코사인 시밀러 서치를 통해 값을 가져오면 끝? 간단하게 생각을 했다. 사실 아직 제대로 챗봇을 구성해보진 않았다 왜냐면 데이터가 정제가 잘 안되어있는 문제도 있을 뿐더러, 자꾸 만들지도 않고 성능개선에 대한 문제점만 생각을 했다. 처음에 랭체인의 Cookbook 을 따라 쳐보면서 클론코딩을 하면서 어느정도 라이브러리에 대한 이해도를 키웠는데 지금은 많이 이해한 상태이다. 그렇다면 우리 회사의 데이터는 다양한 파일이 존재하는데 이걸 어떻게 결합하지 그 의문이 사실 들었었다. 웹의형태도 있을거고, 그냥 문서를 로드하는 경우도 있을것이다. 그런.. 2024. 1. 11.
WIZnet Chatbot 구축 개발 Process 1. 기획 및 요구사항 분석 - 완료 목표 설정: 챗봇의 주요 기능, 성능 목표, 사용자 경험 목표 설정. 요구사항 분석: 기존 ChatBase 시스템의 문제점과 개선점을 분석하여 새로운 챗봇 시스템의 요구사항 도출. 2. 기술 리서치 및 도구 선정 - 완료 기술 조사: LLM, RAG, Vector DB 등 관련 기술 조사 및 최신 AI 연구 동향 파악. 도구 및 플랫폼 선정: 개발에 사용할 언어, 프레임워크, 라이브러리, 데이터베이스 시스템 결정. 3. 아키텍처 설계 - 시스템 아키텍처 설계 완료 시스템 아키텍처 설계: 챗봇의 전체적인 구조, 모듈, 인터페이스 설계. 데이터 아키텍처 설계: 데이터 수집, 저장, 처리 방법 설계. 4. 데이터 준비 및 전처리 - 진행중 데이터 수집: Forum, Cha.. 2024. 1. 8.
728x90
반응형