반응형

구글 리서치(Google Research)는 지난 23일에서 텍스트 프롬프트나 이미지로부터 리얼한 동영상을 생성하는 시공간 확산 모델 ‘Lumiere’를 발표했습니다.

 

Lumiere - Google Research

Space-Time Text-to-Video diffusion model by Google Research.

lumiere-video.github.io

Lumiere는 현실과 거의 구별할 수 없는 수준의 비디오를 만들어내며 AI 비디오 기술의 한계를 뛰어넘고 있습니다. 이 모델은 Space-Time-U-Net, 또는 STUNet이라는 새로운 확산 모델을 사용하여 비디오 내의 객체들이 공간에서 어떻게 배치되고 시간에 따라 어떻게 움직이고 변화하는지를 파악합니다. 이 방법은 Lumiere가 비디오를 작은 정지 프레임들을 모으는 대신 하나의 과정으로 생성할 수 있게 해 줍니다.

Space-Time U-Net: 혁신적인 아키텍처

Lumiere의 핵심은 동시에 공간적, 시간적 차원을 포괄하는 Space-Time U-Net (STUNet) 아키텍처를 사용하여 동영상 전체를 싱글 패스로 한 번에 생성하는 것입니다. 기존의 다른 동영상 생성 모델과는 달리, 동영상의 모든 프레임을 한 번에 생성합니다. 이는 동영상의 길이, 시각적 품질, 리얼한 움직임의 정도에서 기존 모델들을 능가합니다. Lumiere는 전체 동영상을 한 번에 생성하는 새로운 접근 방식을 사용함으로써, 보다 일관된 움직임과 글로벌 연속성을 달성합니다. 이 모델은 비디오 인페인팅, 이미지-비디오 생성, 지정된 스타일의 비디오 생성 등 다양한 비디오 콘텐츠 창작 작업에 쉽게 적용될 수 있습니다.

STUNet은 이미 훈련된 텍스트-투-이미지(T2I) U-Net 아키텍처를 시공간 U-Net(STUNet)으로 확장하여, 비디오를 공간적 및 시간적으로 다운샘플링하고 업샘플링합니다. STUNet은 훈련된 T2I 레이어에 이어 공간-시간 컨볼루션을 포함하는 컨볼루션 기반 블록과, T2I 레이어에 이어 시간적 주의를 기반으로 하는 가장 거친 U-Net 레벨의 주의 기반 블록을 사용합니다. 이 설계는 효율적인 비디오 표현과 처리를 가능하게 하며, 계산 부담을 최소화합니다.

다양한 생성 기능과 스타일화

Lumiere는 텍스트나 이미지를 포함한 다양한 입력으로부터 동영상을 생성할 수 있습니다. 이는 단순히 텍스트 프롬프트로부터 동영상을 생성하는 것뿐만 아니라, 이미지와 연관된 프롬프트를 사용하여 해당 이미지가 움직이는 동영상을 생성하는 기능을 포함합니다. 또한, 'Stylized Generation' 기능을 통해 특정 스타일로 동영상을 생성할 수도 있습니다.

비디오 편집과 보완 기능

구글의 Lumiere 모델은 비디오 편집과 보완 기능에 있어서도 고급 기능을 제공합니다. 예를 들어, Lumiere는 비디오 스타일화를 통해 특정 스타일의 비디오를 생성할 수 있습니다. 이는 사용자가 원하는 특정 스타일로 비디오를 수정할 수 있게 해 줍니다. 또한, 시네마그래프 기능을 사용하여 사진의 특정 부분만을 애니메이션 화하고, 나머지 부분을 정지상태로 유지할 수 있습니다. 이를 통해 독특하고 매력적인 비디오 콘텐츠를 만들 수 있습니다. 비디오 인페인팅 기능은 동영상 내 누락된 부분이나 손상된 부분을 복구하고 보완할 수 있게 해 주어, 전체적인 비디오의 품질을 향상하는 데 도움이 됩니다. 이러한 기능들은 Lumiere가 제공하는 다양하고 유연한 비디오 생성 및 편집 옵션의 일부입니다.


이러한 기술의 진보는 개발자들에게 AI를 활용한 비디오 생성 및 편집의 새로운 가능성을 열어줍니다. Lumiere의 이러한 기능은 특히 크리에이티브 콘텐츠 개발과 AI 기반 비디오 편집 도구 개발에 있어서 큰 도약을 의미할 수 있습니다. Lumiere가 아직 대중에게 공개되지 않았지만, 이 모델이 어떻게 다양한 작업을 수행하는지에 대한 데모는 이미 Lumiere 웹사이트에 공개되어 있습니다. 이러한 발전은 AI 비디오 생성 기술의 미래에 대한 기대를 높이며, 개발자들에게 새로운 창작의 영역을 제공할 것입니다.


반응형