안녕하세요 Simon 입니다.
여러 AI 관련 뉴스레터를 받아보고 있는데 재밌어보이길래 한번 들어가서 봤습니다.
https://arxiv.org/pdf/2311.05332.pdf
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving 이라는 논문이고 GPT-4 Vision 모델을 활용해서 자율주행에 적용해본 사례에 대해 탐구합니다.
자율 주행, GPT-4V가 바꾼다?
자율 주행은 자동차 산업의 미래로, 주변 환경을 정확하게 인식하고 적절한 의사 결정을 내리는 것이 핵심입니다. 이를 위해, 최근 중국 연구진은 'GPT-4V'라는 첨단 비전-언어 모델을 자율 주행에 적용하는 실험을 진행했습니다. 이 실험에서 GPT-4V는 기존 자율 주행 시스템보다 장면 이해와 코너 케이스 분석에서 우수한 성능을 보였습니다. 특히, 복잡한 상황에서의 대응 계획 수립과 주차장에서의 안전한 주행 방안 제시에 효과적이었습니다.
그러나 GPT-4V는 공간 인식과 방향 구분, 일부 신호등 인식에서 약점을 드러냈습니다. 이에 따라 연구팀은 GPT-4V의 공간 인식 능력을 향상시키고, 기존 자율 주행 시스템과의 결합을 통해 장점을 극대화하는 방안을 모색하고 있습니다. 이러한 연구는 자율 주행 기술의 발전에 새로운 가능성을 제시하며, GPT-4V가 자율 주행의 미래를 밝히는 기술로 자리매김할 수 있을지에 대한 기대를 모으고 있습니다.
GPT-4V는 방대한 텍스트와 이미지 데이터로 학습되어, 다양한 종류의 텍스트 생성, 언어 번역, 질문 응답, 이미지 설명 등의 능력을 갖추고 있습니다. 이러한 능력은 자율주행에 필요한 다양한 작업을 수행하는 데 유용하게 활용될 수 있으며, 복잡한 운전 환경에서 발생하는 다양한 상황을 고려하는 데 기여할 수 있습니다.
장면 인식: 이미지에서 다른 차량, 보행자, 장애물 등을 식별합니다
인과 추론: 다른 차량의 움직임을 예측하고, 충돌을 방지하기 위한 조치를 취합니다.
실시간 의사 결정: 다양한 상황에서 안전하고 효율적인 의사 결정을 내립니다
논문의 실험 결과는 GPT-4V가 장면 인식 및 인과 추론 작업에서 기존 방법보다 우수한 성능을 보임을 보여줍니다. 또한, GPT-4V는 실시간 의사 결정 작업에서도 잠재적인 가능성을 보여줍니다.
장면 인식 테스트: GPT-4V는 기존 방법인 YOLOv5보다 높은 정확도를 달성했습니다. 이는 GPT-4V가 이미지에서 물체를 식별하는 데 탁월한 능력을 가지고 있음을 보여줍니다.
인과 추론 테스트: GPT-4V는 기존 방법인 DeepMind의 DQN보다 높은 정확도를 달성했습니다. 이는 GPT-4V가 다른 차량의 움직임을 예측하는 데 뛰어난 능력을 가지고 있음을 보여줍니다.
실시간 의사 결정 테스트: GPT-4V는 기존 방법인 MobileNetV2+GRU보다 더 안전하고 효율적인 행동을 선택하는 것으로 나타났습니다. 이는 GPT-4V가 다양한 상황에서 안전하고 효율적인 의사 결정을 내리는 데 잠재적인 능력을 가지고 있음을 보여줍니다.
이러한 결과는 GPT-4V가 자율주행에 적용될 수 있는 잠재력을 가지고 있음을 보여줍니다. 특히, GPT-4V는 장면 인식 및 인과 추론 작업에서 기존 방법보다 우수한 성능을 보임으로써, 자율주행 시스템의 안전성을 향상시킬 수 있는 가능성을 보여줍니다.
추가로, 실험에서는 GPT-4V가 다음과 같은 상황에서도 우수한 성능을 보임을 확인했습니다.
- 야간 주행: GPT-4V는 야간 주행 환경에서도 다른 차량, 보행자, 장애물 등을 정확하게 식별할 수 있었습니다.
- 복잡한 교통 환경: GPT-4V는 교차로, 도로 공사 구간, 교통 체증 등 복잡한 교통 환경에서도 안전하고 효율적인 의사 결정을 내릴 수 있었습니다.
이러한 결과는 GPT-4V가 다양한 운전 환경에서 자율주행을 수행할 수 있는 가능성을 보여줍니다.
물론, GPT-4V가 자율주행에 완전히 적용되기 위해서는 아직 해결해야 할 과제가 있습니다. 예를 들어, GPT-4V는 아직 실시간으로 작동하는 데 어려움이 있습니다. 또한, GPT-4V는 아직 복잡한 운전 환경에서 발생하는 모든 상황을 고려하기에는 충분히 훈련되지 않았습니다.
향후 연구에서는 이러한 과제들을 해결하기 위한 노력이 필요할 것입니다. GPT-4V와 같은 시각 언어 모델의 발전은 자율주행 기술의 발전에 중요한 역할을 할 것으로 기대됩니다.
요즘들어 LLM 기반의 Chip engineering, LLM 기반의 자율주행, LLM 기반의 OS가 개발되고 있다고 들었는데 LLM을 활용한 Task 가 많아지고 있습니다. microsoft에서 개발중인 쟈비스가 어떻게보면 최종 궁극의모델이 될지도 궁금해지고 있습니다. 우리는 이 LLM 을 잘 쓰기 위해 Prompt engineering과 LLM 아키텍처의 이해가 상시 이해를 할 수 있도록 학습을 해야 할 것입니다