반응형

OpenAI가 차세대 AI 혁명의 또 다른 장을 열며, 2월 15일에 'Sora'라는 혁신적인 text-to-video 모델을 공개했습니다.

 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

Sora는 단순한 텍스트 지시문을 받아 현실적이면서도 상상력이 풍부한 동영상 장면을 생성할 수 있는 능력을 갖추고 있습니다. Sora는 사용자의 프롬프트에 충실하면서 최대 1분 길이의 고화질 비디오를 생성할 수 있으며, 복잡한 장면, 다수의 캐릭터, 특정 유형의 움직임 및 배경의 정확한 세부 사항까지 포함할 수 있습니다.

출처 : OpenAI

하지만 아직은 현실의 복잡한 장면의 물리학을 정확히 시뮬레이션하는 데 어려움이 있거나, 특정 원인과 결과의 인스턴스를 이해하지 못하는 등의 한계도 있다고 합니다. 예를 들어, 쿠키에 한 입 베어 물었지만, 이후에 쿠키에 물린 자국이 나타나지 않을 수 있습니다.

OpenAI는 Sora를 서비스하기 전에 뉴스, 증오 발언, 편향 등의 분야에서 도메인 전문가인 red 팀원들과 협력하여 모델 테스트를 진행하고 있으며 Sora에 의해 생성된 비디오를 감지할 수 있는 분류기를 개발하는 등, 오해의 소지가 있는 콘텐츠를 감지하는 도구 역시 구축하고 있습니다.


기술 혁신

  • 다양한 형태의 시각적 데이터(예: 이미지, 비디오 등)를 일관된 형식이나 구조로 변환하여 생성 모델의 대규모 훈련이 가능합니다. 
  • Sora는 프로그램, 또는 모델의 성능이나 효율성을 숫자나 데이터로만 표현하는 것이 아니라, 사용자 경험, 전문가 의견, 사례 연구 등 정성적 평가를 통해 Sora의 다양한 기능과 현재의 제약 사항을 분석했습니다.

비디오 압축 및 잠재 패치

  • 비디오 데이터의 복잡성과 크기를 줄이기 위해 비디오를 더 간단한 형태로 변환한 다음, 압축된 표현을 시간과 공간의 작은 단위로 나누어 비디오를 패치로 변환합니다. 비디오의 특정 시간대에 해당하는 이미지 영역을 나타내며, 이를 통해 모델은 비디오의 시각적 내용과 시간적 변화를 더 잘 이해하고 학습할 수 있습니다.
  • 이러한 패치는 변환기 토큰으로 작용, 비디오 및 이미지의 가변 해상도와 기간에 대해 학습합니다.

출처 : OpenAI

비디오 생성을 위한 변환기 확장

  • Sora는 입력된 노이즈가 있는 패치들(그리고 텍스트 프롬프트와 같은 조건부 정보)을 받아 원본의 '깨끗한' 패치들을 예측하도록 훈련된 diffusion model입니다. 정확하게는 diffusion transformer입니다. diffusion transformer는 diffusion model을 변형시킨 구조로, transformer 아키텍처를 사용합니다. transformer는 주로 언어 처리 분야에서 시작되었지만, 그 효율적인 학습 방식과 확장성 덕분에 컴퓨터 비전과 이미지 생성 등 다양한 분야에서도 중요한 역할을 하게 되었습니다.
  • 변환기는 언어 모델링, 컴퓨터 비전 및 이미지 생성 등 다양한 영역에서 뛰어난 확장성을 보여줍니다.

출처 : OpenAI

diffusion transformer가 비디오 모델에서도 효과적으로 확장됨을 확인할 수 있습니다. 아래를 보면 훈련이 진행됨에 따라 고정된 시드와 입력을 가진 비디오 샘플의 비교를 보여줍니다. 훈련 계산이 증가함에 따라 샘플의 품질은 향상됩니다.

출처 : OpenAI

유연한 샘플링과 구성 개선

  • Sora는 1920x1080p와 같은 와이드스크린 비디오부터 1080x1920의 수직 비디오까지 다양한 종횡비에서 콘텐츠를 생성할 수 있습니다.
  • 스마트폰, 태블릿, 컴퓨터 모니터 등 다양한 기기의 기본 화면 비율에 맞춰 직접 콘텐츠를 생성할 수 있음을 의미합니다.

출처 : OpenAI

언어 이해의 강화

  • 텍스트에서 비디오로 생성하는 시스템을 훈련시키기 위해서는 해당하는 텍스트 캡션과 함께 많은 양의 비디오가 필요합니다. OpenAI는 DALL·E 3에서도 소개된 재캡셔닝 기술을 비디오에 적용했습니다. 먼저 매우 상세한 캡셔너 모델을 훈련시키고, 그다음 이를 사용해 우리의 훈련 세트에 있는 모든 비디오에 대한 텍스트 캡션을 생성합니다. 매우 상세한 비디오 캡션에 대한 훈련이 텍스트 충실도뿐만 아니라 비디오의 전반적인 품질을 향상한다는 것을 발견했습니다
  • DALL·E 3과 유사하게, GPT를 활용하여 사용자 프롬프트를 더 긴 상세한 캡션으로 전환하여 비디오 모델에 전송합니다. 이를 통해 Sora는 사용자 프롬프트를 정확하게 따르는 고품질의 비디오를 생성할 수 있게 됩니다.

출처 : OpenAI

이미지와 비디오를 사용한 프롬프팅

  • Sora는 기존의 이미지나 비디오와 같은 다른 입력으로도 프롬프팅 될 수 있습니다. 완벽하게 반복되는 비디오를 생성하거나, 정적 이미지를 애니메이션화 하거나, 비디오를 시간적으로 앞이나 뒤로 확장하는 등의 다양한 이미지 및 비디오 편집 작업을 수행할 수 있게 합니다.
  • Sora가 단순히 텍스트 기반의 비디오 생성에 국한되지 않고, 이미지와 비디오 편집의 광범위한 작업을 처리할 수 있는 유연성을 가지고 있음을 의미합니다.

출처 : OpenAI


새롭게 등장하는 시뮬레이션 능력

  • 3D 일관성 및 장기적 일관성: Sora는 동적 카메라 모션을 가진 비디오를 생성할 수 있습니다. 카메라가 이동하고 회전함에 따라, 사람들과 장면 요소들은 3차원 공간을 통해 일관되게 움직입니다. 또한 긴 비디오를 샘플링할 때 시간적 일관성을 유지하는 것이 가능합니다. 
  • 세계와의 상호작용: 간단한 방식으로 영향을 미치는 행동들을 시뮬레이션할 수 있습니다. 예를 들어, 화가는 시간이 지나도 지속되는 캔버스 위에 새로운 붓놀림을 남길 수 있거나, 남자가 햄버거를 먹고 물린 자국을 남길 수 있습니다.
  • 디지털 세계 시뮬레이션: 비디오 게임과 같은 인공 프로세스를 시뮬레이션하는 능력을 보여줍니다.

출처 : OpenAI


Sora가 실제 세계의 물리적 상호작용이나 객체의 상태 변화를 완벽하게 시뮬레이션하는 데 있어서 아직 불완전합니다. 예를 들어, 유리가 깨지는 것과 같은 많은 기본적인 상호작용의 물리학을 정확하게 모델링하지 못합니다.

출처 : OpenAI

또한, 긴 비디오 샘플을 생성하는 과정에서 일관성을 유지하지 못하거나 객체가 갑자기 나타나는 등의 문제도 발생할 수 있습니다. 이러한 한계들은 Sora가 아직 발전해야 할 영역이며 이러한 문제들은 Sora 랜딩 페이지에서 더 자세히 설명하고 있습니다.

현재의 한계에도 불구하고, Sora의 발전은 인공지능 기술의 새로운 가능성을 열고, 창조적 전문가들에게 무한한 기회를 제공할 것입니다.

반응형