본문 바로가기
AI/Ref.News

Open AI 의 새로운 Text to Video SORA 공개

by AI미남홀란드 2024. 2. 16.
728x90

 

SORA - Text to Video

 

 

 

안녕하세요 Simon입니다. 오늘 새벽은 정말 바쁘네요. 자고 일어났더니 마구마구 쏟아져 나오고 있습니다. Open AI에서 새로운 신기술을 발표했습니다. 언어모델만 잘하는 open AI 가 아니라 2024년은 text to video의 해라고 할 정도로 많은 동영상 관련 생성형 AI 기술이 쏟아지는 가운데 openAI 가 신호탄을 쏟아 올렸습니다.

 

OpenAI가 최근 발표한 Sora 모델은 텍스트 지시에 따라 현실적이고 상상력이 풍부한 장면을 생성할 수 있는 AI 모델입니다. 이 모델은 사용자의 프롬프트에 충실하면서 시각적 품질을 유지하고 최대 1분 길이의 비디오를 생성할 수 있습니다. Sora는 복잡한 장면, 여러 캐릭터, 특정 유형의 움직임, 그리고 주제와 배경의 정확한 세부 사항을 생성할 수 있으며, 사용자가 요청한 내용뿐만 아니라 그러한 것들이 실제 세계에서 어떻게 존재하는지를 이해합니다.

 

 

Sora는 현재 실제 세계 상호작용을 필요로 하는 문제를 해결하는 데 도움이 되는 모델을 훈련시키는 목표를 가지고, AI가 운동하는 물리적 세계를 이해하고 시뮬레이션하도록 가르치고 있습니다. 이 모델은 시각 예술가, 디자이너, 영화 제작자들로부터 피드백을 얻기 위해 일부 사용자에게 접근 권한을 부여하며, 창의적 전문가들에게 가장 유용하게 모델을 발전시키는 방법에 대한 피드백을 얻고자 합니다.

 

Sora는 또한 안전 조치를 고려하여 개발되고 있으며, 오해의 소지가 있는 콘텐츠를 탐지하는 도구와 비디오가 Sora에 의해 생성되었는지 알려주는 탐지 분류기를 포함한 여러 안전 기능을 구축하고 있습니다. OpenAI는 이미 DALL·E 3에 대해 구축한 안전 방법을 Sora에도 적용하고 있으며, 이는 OpenAI 제품에서 사용될 경우 텍스트 분류기를 통해 사용 정책을 위반하는 텍스트 입력 프롬프트를 거부하고, 생성된 모든 비디오 프레임을 검토하여 사용 정책을 준수하는지 확인하는 이미지 분류기를 개발하는 것을 포함합니다.

 

이 모델은 아직 완벽하지 않으며, 복잡한 장면의 물리학을 정확하게 시뮬레이션하거나 특정 원인과 결과의 인스턴스를 이해하는 데 어려움을 겪을 수 있습니다. 예를 들어, 쿠키를 먹는 사람이 있을 수 있지만, 그 후에 쿠키에 물린 자국이 나타나지 않을 수 있습니다. 또한, 특정 카메라 궤적을 따르는 이벤트와 같이 시간에 걸쳐 발생하는 이벤트의 정확한 설명에 어려움을 겪을 수 있습니다.

 

Sora OpenAI 제품에 포함되기 전에 여러 중요한 안전 단계를 거칠 예정이며, 이는 오해의 소지가 있는 콘텐츠를 탐지하고, 비디오가 Sora 의해 생성되었는지 알려주는 분류기를 포함합니다. 또한, OpenAI 정책 입안자, 교육자, 예술가들과 협력하여 새로운 기술에 대한 우려를 이해하고 긍정적인 사용 사례를 식별할 계획입니다.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about. more

 

진짜 깜짝놀랐습니다. 걸어가는 세세한 디테일로 prompt를 주었더니 저런 결과물이 나왔습니다. 예시의 동영상들이 몇 개가 더 있는데 보면 놀랍습니다. 구글이 패권을 가져가나 이미지 쪽은 생각을 하고 있었는데 바로 반격을 해주는 openAI 과연 어떤 형태로 사용할 수 있게 될지 궁금해집니다.

 

 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

 

728x90