본문 바로가기
AI/Ref.News

앤트로픽, 클로드 3.5 모델 주요 업그레이드 발표

by 벵자민 2024. 10. 24.
728x90

최근 Anthropic이 자사의 AI 모델인 Claude의 대대적인 업그레이드를 발표했습니다. 이번 발표에는 새로운 모델 “Claude 3.5 Sonnet”, 저비용 고성능 “Claude 3.5 Haiku”, 그리고 AI가 컴퓨터 인터페이스와 직접 상호작용할 수 있는 “컴퓨터 사용” 기능이 포함되어 있습니다. 각 모델의 주요 특징과 업그레이드 내용을 살펴보겠습니다.

anthropic

 

Claude 3.5 Sonnet: 코딩 성능 향상

Claude 3.5 Sonnet은 코딩 기능이 크게 향상된 모델로, 다양한 벤치마크에서 높은 성과를 기록했습니다. 주요 성과는 다음과 같습니다:

  • SWE-bench 검증 점수: 기존 33.4%에서 49.0%로 크게 상승하며, 모든 공개 모델을 능가했습니다.
  • TAU-bench 성능 개선: 소매 분야에서는 62.6%에서 69.2%로, 항공 분야에서는 36.0%에서 46.0%로 향상되었습니다.
  • GPQA 및 MMLU Pro 점수: Gemini 1.5 Pro를 능가하며 더 높은 성능을 기록했습니다.

이러한 성과는 추가 비용이나 속도 저하 없이 이루어졌으며, 초기 피드백에 따르면 AI 기반 코딩에서 최대 10% 더 강력한 추론 능력을 보여줍니다.

Claude 성능 비교

 

Claude 3.5 Haiku: 저비용 고성능 모델

Claude 3.5 Haiku는 Anthropic이 새롭게 선보인 경량화 모델로, 비용 대비 성능이 뛰어난 것이 특징입니다. 주요 기능은 다음과 같습니다:

  • 저비용 고성능: Claude 3 Opus의 성능을 유지하면서도 더 저렴한 비용과 빠른 속도를 제공합니다.
  • SWE-bench Verified: 40.6%의 성과를 기록하며, 기존 Claude 3.5 Sonnet 및 GPT-4 Turbo를 능가합니다.
  • 텍스트 전용 모델: 초기에는 텍스트 전용으로 제공되며, 향후 이미지 지원이 추가될 예정입니다.

Claude 3.5 Haiku는 개발자들이 비용 효율적으로 고성능 AI 기능을 활용할 수 있는 좋은 옵션을 제공하며, 이달 말 Anthropic API와 주요 클라우드 제공업체를 통해 출시될 예정입니다.

https://www.anthropic.com/claude/haiku

 

Claude 3.5 Haiku

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

www.anthropic.com

 

https://www.swebench.com/

 

SWE-bench

Leaderboard Lite Verified Full SWE-bench Lite is a subset of SWE-bench that's been curated to make evaluation less costly and more accessible [Post]. SWE-bench Verified is a human annotator filtered subset that has been deemed to have a ceiling of 100% res

www.swebench.com

 

컴퓨터 사용 기능: AI의 인터페이스 상호작용 혁신

Anthropic의 “컴퓨터 사용” 기능은 AI가 컴퓨터 인터페이스와 직접 상호작용할 수 있도록 해줍니다. Claude 3.5 Sonnet은 이제 화면을 보고, 커서를 이동시키고, 버튼을 클릭하며 텍스트를 입력할 수 있습니다. 이 기능은 다음과 같은 주요 장점을 가지고 있습니다:

  • 사용자 인터페이스 인식 및 상호작용: API를 통해 UI를 인식하고 조작할 수 있습니다.
  • 기술 일반화: 간단한 소프트웨어 훈련에서 복잡한 응용 프로그램까지의 기술적 확장이 가능합니다.
  • OSWorld 벤치마크 성과: 스크린샷 전용 카테고리에서 14.9%의 성능을 기록하며, 다른 AI 시스템을 능가했습니다.

이 기능은 반복적인 프로세스 자동화, 소프트웨어 테스트, 개방형 연구 작업 등 다양한 응용 분야에서 잠재력을 가지고 있으며, 아직 베타 단계이지만 지속적인 발전이 기대됩니다.

https://www.youtube.com/watch?v=vH2f7cjXjKI

 

 

가용성 및 안전 조치

업그레이드된 Claude 3.5 Sonnet은 현재 Anthropic의 API, Amazon Bedrock, Google Cloud의 Vertex AI를 통해 사용할 수 있으며, Claude 3.5 Haiku도 이달 말에 출시될 예정입니다. Anthropic은 이러한 새로운 모델에 대해 다음과 같은 안전 조치를 구현했습니다:

  • 사전 배포 테스트: 미국 및 영국 AI 안전 연구소에 의해 공동으로 수행되었습니다.
  • 새로운 분류기 도입: 잠재적 오용을 방지하기 위해 개발된 새로운 분류기를 통해 안전성을 높였습니다.
  • 책임 있는 확장 정책: Claude 3.5 Sonnet을 ASL-2 표준으로 분류하여, 점점 더 강력해지는 AI 시스템의 책임 있는 배포를 보장합니다.

 

결론

이번 업그레이드는 Anthropic의 Claude AI가 코딩 성능, 비용 효율성, 그리고 컴퓨터 인터페이스 상호작용에서 큰 진전을 이루었음을 보여줍니다. 이러한 기술적 혁신은 AI가 우리의 일상과 업무 환경에서 점점 더 중요한 역할을 할 수 있음을 시사합니다.

 

 

신규 논문 : https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

 

728x90