본문 바로가기
728x90

멀티모달3

OpenAI의 새로운 혁신, GPT-4o 모델 공개 텍스트, 음성, 영상 처리까지 가능한 멀티모달 AI의 등장  GPT-4o의 주요 특징 요약:무료 텍스트 및 이미지 기능 제공: 무료 사용자도 텍스트와 이미지 분석 기능을 사용할 수 있습니다.멀티 모달 처리: 텍스트, 음성, 영상 데이터를 동시에 입력받아 처리할 수 있습니다.실시간 상호작용: 인간처럼 자연스러운 실시간 대화가 가능합니다.향상된 성능: 기존 모델에 비해 2배 빠른 API와 높은 성능을 제공합니다.다양한 언어 지원: 50개 언어에서 뛰어난 성능을 보이며, 특히 비영어권 언어에서도 높은 효율을 제공합니다.  OpenAI가 새로운 인공지능 모델 GPT-4o를 발표했습니다. GPT-4o는 '옴니(omni)'라는 이름처럼 텍스트, 음성, 영상 데이터를 모두 처리할 수 있는 멀티모달 AI 모델입니다. .. 2024. 5. 14.
Deeplearning Playground 네트워킹 컨퍼런스 후기 딥러닝 플레이그라운드 네트워킹 컨퍼런스 참여 후기 지난 토요일, 공덕 프론트원에서 열린 '딥러닝 플레이그라운드' 네트워킹 컨퍼런스에 참석한 경험은 매우 인상적이었습니다. 이 자리는 최신 딥러닝 트렌드에 대한 깊이 있는 인사이트와 다양한 전문가들과의 소통의 장으로, 저에게 큰 영감을 주었습니다. NURF에 관한 최신 동향에 대한 세션은 새로운 연구 방향과 기술의 미래에 대해 생각해 볼 수 있는 기회였습니다. 컴퓨터비전쪽은 잘 모르는 분야였어서 모르는내용이 99.9%였지만, 비전도 LLM과 엮어서 프롬프트로 3D이미지를 생성해내는 연구가 활발히 이루어지는 것을 확인하였습니다. 이외에도, 네이버에서 LLM(Large Language Models)을 서비스에 어떻게 효과적으로 적용할 수 있는지에 대한 발표도 있.. 2024. 1. 29.
Honeybee: Locality-enhanced Projector for Multimodal LLM 논문 리뷰 안녕하세요 Simon 입니다 오늘은 Honeybee 라고 KAKAO Brain 에서 개발한 멀티모달 모델에 관련된 논문을 리뷰하려고 합니다. LLM -> MLLM 에 대한 연구가 확실히 활발하게 이루어지고 있는 듯 합니다. HoneyBEE 카카오브레인이 새로운 인공지능 모델 '허니비(Honeybee)'를 발표, 이미지와 텍스트 입력이 가능한 기능을 갖춤. '허니비'는 이미지와 텍스트를 이해하고 답변하는 능력이 있으며, MME 벤치마크에서 높은 점수를 획득. 카카오브레인은 허니비를 교육 및 학습 보조 도구로 활용할 계획이며, 지속적인 연구와 개발을 진행할 예정임. Honeybee: Locality-enhanced Projector for Multimodal LLM In Multimodal Large Lan.. 2024. 1. 23.
728x90