본문 바로가기
AI/Contents

라즈베리파이와 GPT-4-VISION Few-shot을 통한 예제 메인페이지 게재

by AI미남홀란드 2024. 1. 18.
728x90

안녕하세요 Simon 입니다.

 

오늘은 제가했던 프로젝트가 Rasppberry PI 메인 홈페이지에 게시가 되어서 소개를 해드리려고 합니다.

 

 

Raspberry Pi

From industries large and small, to the kitchen table tinkerer, to the classroom coder, we make computing accessible and affordable for everybody.

www.raspberrypi.com

 

저희 회사에서는 매달 UI Creation 이라고 말 그대로 제가 스스로 저희 회사 제품을 사용해서 컨텐츠를 제작하는 업무가 있습니다. 평소에 Creative 한 걸 좋아하는 저에겐 어쩌면 재미있는 업무이기도 합니다. 평가를 해서 사장님이 금 또한 주십니다. 

금전적인게 목표가 될 수도 있지만, 꾸준하게 프로젝트를 한다는게 큰 의미가 있는거 같습니다.

 

Raspberry PI and GPT-4 help you cook steak to perfection

 

저는 라즈베리파이를 하나의 서버로 구축하고 , 온도센서를 데이터로 받아오기 위하여 evb-pico-w6100 을 사용해서 하드웨어를 구성했습니다. 라즈베리파이에서는 Streamlit 프레임워크를 통해서 간단한 웹서버를 구성하고, 그 안에서 GPT-VISION 을 통해 image Captioning 을 하고, 스테이크 심부의 온도를 받아와서 GPT에게 같이 Response 를 해줍니다. 그렇게 GPT가 그 내용을 토대로 스테이크가 익었는지 안익었는지 판단을 해주는 프로젝트 입니다.

 

flow map

조금 AI 부분에 대해서 설명을 하자면, 먼저 스테이크의 익음정도가 평가된 사진을 Caption 을 한 후 그 결과를 토대로 example 즉 One-shot 러닝을 해줍니다. 그럼 그 예제는 Context에 저장되어서 나중에 휴대폰으로 사용자가 이미지를 전송하면 그 컨텍스트기반으로 모델이 이해를 해서 Caption 결과를 출력을 해주는 구조입니다. 사실 11월 초에 이 프로젝트를 진행했는데, GPT-4Vision 이 그 당시 따끈따끈하게 API로 풀려서 어떤 예제를 해볼까하다가 얘도 과연 Few-shot, CoT를 주면 성능이 올라갈까? 생각했고, 실제로 여러번 테스트를 해보니깐 성능이 올라가는 것을 확인할 수 있었습니다. 사실 정밀한 분석은 못하겠지만 어느정도 성능이 나오기 때문에, 예전에 제가 했던 고기등급분류 모델을 Classification 할  수 있지 않을까 적절한 Few-shot 을 통해서 생각을 하고 논문을 써봐야겠다 생각만 했었습니다.

vision 모델이 어떤 형태로 이미지의 벡터를 인식하는지는 정확하게 공부를 해보지 않아서 느낌은 ResNet과 같은 이미지, 세그먼테이션을 활용한 모델처럼은 성능이 안나와도 벤치마크 20~30대 정확도는 나오지 않을까 생각했습니다.(Efficieint Net 당시 0.4~ 0.5 accuracy)

 

그러고 2주뒤에 vision 을 활용한 효율적인 프롬프트 방법으로 Few-shot 에 관한 논문들이 나왔고, 진짜로 퓨샷러닝이 비전모델에도 효과가 있음을 입증한 결과였습니다.

 

 

[AIoT] LLM Steak Classifier AIOT Bot

LLM 으로 image 를 인식하고 fewshot 프롬프팅으로 예시를 주어서 context를 만들어서 prompt 를 사용해서 멀티모달을 구현하였습니다. 이를 임베디드 환경에 넣어서 AIOT 환경을 구축하였습니다

maker.wiznet.io

 

GitHub - wiznetmaker/LLM-Steak-Classifier-AIOT-Bot

Contribute to wiznetmaker/LLM-Steak-Classifier-AIOT-Bot development by creating an account on GitHub.

github.com

프로젝트의 자세한 내용은 위 Maker Site에 게시를 해두었습니다. 관련 소스코드도 있으니 확인 해보시고 어떤식으로 VISION 모델을 구축연구 해보면 좋을지 생각해보면 좋을듯 합니다.

728x90