안녕하세요 Simon 입니다.
오늘은 제가했던 프로젝트가 Rasppberry PI 메인 홈페이지에 게시가 되어서 소개를 해드리려고 합니다.
저희 회사에서는 매달 UI Creation 이라고 말 그대로 제가 스스로 저희 회사 제품을 사용해서 컨텐츠를 제작하는 업무가 있습니다. 평소에 Creative 한 걸 좋아하는 저에겐 어쩌면 재미있는 업무이기도 합니다. 평가를 해서 사장님이 금 또한 주십니다.
금전적인게 목표가 될 수도 있지만, 꾸준하게 프로젝트를 한다는게 큰 의미가 있는거 같습니다.
저는 라즈베리파이를 하나의 서버로 구축하고 , 온도센서를 데이터로 받아오기 위하여 evb-pico-w6100 을 사용해서 하드웨어를 구성했습니다. 라즈베리파이에서는 Streamlit 프레임워크를 통해서 간단한 웹서버를 구성하고, 그 안에서 GPT-VISION 을 통해 image Captioning 을 하고, 스테이크 심부의 온도를 받아와서 GPT에게 같이 Response 를 해줍니다. 그렇게 GPT가 그 내용을 토대로 스테이크가 익었는지 안익었는지 판단을 해주는 프로젝트 입니다.
조금 AI 부분에 대해서 설명을 하자면, 먼저 스테이크의 익음정도가 평가된 사진을 Caption 을 한 후 그 결과를 토대로 example 즉 One-shot 러닝을 해줍니다. 그럼 그 예제는 Context에 저장되어서 나중에 휴대폰으로 사용자가 이미지를 전송하면 그 컨텍스트기반으로 모델이 이해를 해서 Caption 결과를 출력을 해주는 구조입니다. 사실 11월 초에 이 프로젝트를 진행했는데, GPT-4Vision 이 그 당시 따끈따끈하게 API로 풀려서 어떤 예제를 해볼까하다가 얘도 과연 Few-shot, CoT를 주면 성능이 올라갈까? 생각했고, 실제로 여러번 테스트를 해보니깐 성능이 올라가는 것을 확인할 수 있었습니다. 사실 정밀한 분석은 못하겠지만 어느정도 성능이 나오기 때문에, 예전에 제가 했던 고기등급분류 모델을 Classification 할 수 있지 않을까 적절한 Few-shot 을 통해서 생각을 하고 논문을 써봐야겠다 생각만 했었습니다.
vision 모델이 어떤 형태로 이미지의 벡터를 인식하는지는 정확하게 공부를 해보지 않아서 느낌은 ResNet과 같은 이미지, 세그먼테이션을 활용한 모델처럼은 성능이 안나와도 벤치마크 20~30대 정확도는 나오지 않을까 생각했습니다.(Efficieint Net 당시 0.4~ 0.5 accuracy)
그러고 2주뒤에 vision 을 활용한 효율적인 프롬프트 방법으로 Few-shot 에 관한 논문들이 나왔고, 진짜로 퓨샷러닝이 비전모델에도 효과가 있음을 입증한 결과였습니다.
프로젝트의 자세한 내용은 위 Maker Site에 게시를 해두었습니다. 관련 소스코드도 있으니 확인 해보시고 어떤식으로 VISION 모델을 구축연구 해보면 좋을지 생각해보면 좋을듯 합니다.
'AI > Contents' 카테고리의 다른 글
Fine-tune Mixtral 8x7B (MoE) on Custom Data 코드 리뷰 (1) | 2024.02.13 |
---|---|
[Langchain] 처음시작하는 랭체인 - (1) (3) | 2024.01.24 |
LLM 데이터셋 관련 정리 - 대규모 원시 말뭉치 (3) | 2024.01.17 |
프롬프트 엔지니어링의 새로운 방법 : PAL(Program-Aided Language Models) 의 원리와 실제 적용 사례 (1) | 2024.01.17 |
GPT 스토어에서 가장 인기있는 챗봇은? (3) | 2024.01.15 |