소라가 다시 능가했습니다! Meta AI 비디오 모델은 늦은 밤에 폭발하며 놀라운 BGM을 제공하여 P-사진보다 비디오 편집을 더 쉽게 만듭니다.

주커버그는 최근 전 세계의 '각광을 훔치느라' 바빴다.

얼마 전 그는 '제2의 창업'을 시작하며 10년 동안 갈고 닦은 가장 강력한 AR 안경인 메타오리온을 선보였습니다. 비록 미래를 걸고 있는 프로토타입 기계일 뿐이지만 세상의 이목을 끌었습니다. 애플의 비전 프로.

어젯밤, Meta는 비디오 생성 모델 트랙에서 다시 한 번 쇼를 훔쳤습니다.

메타는 새로 출시된 Meta Movie Gen이 현재까지 가장 발전된 '미디어 기반 모델'이라고 밝혔습니다.

하지만 먼저 예방조치를 취하자. 메타 관계자들은 아직 명확한 오픈 일정을 제시하지 않았다.

관계자들은 엔터테인먼트 업계 전문가, 창작자들과 적극적으로 소통하고 협력하고 있으며, 이를 내년쯤 메타 자체 상품과 서비스에 접목할 예정이라고 밝혔다.

Meta Movie Gen의 기능을 간략하게 요약하면 다음과 같습니다.

개인화된 비디오 생성, 정밀한 비디오 편집, 오디오 생성 등의 기능을 갖추고 있습니다.
1080P, 16초, 초당 16프레임의 고화질 장편 동영상 생성 지원
최대 45초의 고품질 및 충실도 오디오 생성 가능
정교하고 정확한 비디오 편집 기능을 얻으려면 간단한 텍스트를 입력하십시오.
데모는 훌륭했지만, 제품은 내년까지 공식적으로 대중에게 공개되지 않을 것으로 예상됩니다.

"mime"에 작별을 고하고 크고 포괄적인 기능에 집중하세요

세분화하면 Movie Gen에는 비디오 생성, 개인화된 비디오 생성, 정밀 비디오 편집 및 오디오 생성이라는 네 가지 주요 기능이 있습니다.

Vincent 비디오 기능은 오랫동안 비디오 생성 모델의 표준 기능이었지만 Meta Movie Gen은 업계 최초로 사용자 요구에 따라 다양한 화면 비율의 고화질 비디오를 생성할 수 있습니다.

텍스트 입력 요약: 분홍색 선글라스를 낀 나무늘보가 수영장의 도넛 플로트 위에 누워 있습니다. 나무늘보는 열대 음료를 들고 있습니다. 햇빛이 그림자를 드리웁니다.

텍스트 입력 요약: 카메라는 남자 뒤에 있습니다. 남자는 허리에 녹색 천을 두르고 있으며, 양손에 불 같은 물체를 들고 잔잔한 바다를 배경으로 하고 있습니다. 불춤과 함께 분위기가 매혹적입니다.

또한 Meta Movie Gen은 고급 비디오 편집 기능을 제공하므로 사용자는 간단한 텍스트 입력을 통해 복잡한 비디오 편집 작업을 수행할 수 있습니다.

비디오의 시각적 스타일부터 비디오 클립 간의 전환 효과, 보다 세부적인 편집 작업에 이르기까지 이 모델은 충분한 자유도를 제공합니다.

Meta Movie Gen은 개인화된 비디오 생성에서도 큰 진전을 이루었습니다.

사용자는 자신의 이미지를 업로드하고 Meta Movie Gen을 사용하여 캐릭터와 움직임을 유지하면서 개인화된 비디오를 생성할 수 있습니다.

텍스트 입력 요약: 데님 바지를 입은 카우걸이 오래된 서부 마을에서 백마를 타고 있습니다. 허리에 가죽 벨트를 두르고 있으며, 말의 코트는 햇빛에 반짝이고 있습니다.

콩밍(Kongming) 등불부터 투명한 색깔의 비눗방울까지, 영상 속 동일한 물체를 한 문장으로 쉽게 바꿀 수 있습니다.

텍스트 입력: 랜턴을 공중으로 솟아오르는 거품으로 변환합니다.

올해 많은 영상모델이 공개됐지만 대부분이 '마임'만 생성할 수 있는 수준이다. 메타무비젠이 '같은 실수를 반복'하지 않으면 버리는 게 아쉽다.

텍스트 입력: 경이로움을 불러일으키는 아름다운 오케스트라 곡입니다.

사용자는 비디오 파일이나 텍스트 콘텐츠를 제공하고 Meta Movie Gen이 이러한 입력을 기반으로 해당 오디오를 생성하도록 할 수 있습니다. (PS: 스케이트보드 착지 장면의 더빙에 주의하세요)

또한, 단일 사운드 효과를 생성할 수 있을 뿐만 아니라 배경 음악 및 전체 비디오에 대한 완전한 사운드트랙도 생성할 수 있으므로 비디오의 전반적인 품질과 청중의 시청 경험이 크게 향상됩니다.

데모를 본 후 Lex Fridman은 감탄사를 간결하게 표현했습니다.

많은 네티즌들이 다시 한번 OpenAI의 미래인 소라를 '밀어넣었지만' 테스트 체험 자격 개설을 기대하는 열망이 더 커지기 시작했습니다.

Meta AI 수석 과학자 Yann LeCun도 Meta Movie Gen 플랫폼을 온라인으로 홍보했습니다.

메타가 그린 파이는 기대해볼 만하다

메타AI 연구팀은 메타무비젠 출시와 동시에 92페이지 분량의 기술논문도 출간했다.

보고서에 따르면 Meta의 AI 연구팀은 이러한 광범위한 기능을 달성하기 위해 주로 Movie Gen Video 및 Movie Gen Audio 모델이라는 두 가지 기본 모델을 사용합니다.

그 중 Movie Gen Video는 30B 파라미터를 갖는 기본 모델로 텍스트-비디오 생성에 사용되며 최대 16초 길이의 고품질 HD 비디오를 생성할 수 있다.

모델 사전 학습 단계에서는 대량의 이미지 및 비디오 데이터를 사용하여 객체 모션, 상호 작용, 기하학, 카메라 모션 및 물리적 법칙을 포함한 시각적 세계의 다양한 개념을 이해합니다.
비디오 생성 품질을 향상시키기 위해 모델은 신중하게 선택된 고품질 비디오 및 텍스트 캡션의 작은 세트를 사용하여 SFT(감독 미세 조정)도 수행됩니다.

보고서는 훈련 후 프로세스가 Movie Gen Video 모델 훈련의 중요한 단계이며, 이를 통해 비디오 생성 품질, 특히 이미지와 비디오의 개인화 및 편집 기능을 더욱 향상시킬 수 있음을 보여줍니다.

연구팀이 Movie Gen Video 모델을 주류 비디오 생성 모델과 비교했다는 점도 언급할 가치가 있습니다.

Sora는 현재 공개되지 않았기 때문에 연구자들은 비교를 위해 공개적으로 공개된 비디오와 팁만 사용할 수 있습니다. Runway Gen3, LumaLabs 및 Keling 1.5와 같은 다른 모델의 경우 연구원은 API 인터페이스를 통해 직접 비디오를 생성하도록 선택합니다.

그리고 Sora가 게시한 동영상은 해상도와 지속 시간이 다르기 때문에 연구자들은 Movie Gen Video의 동영상을 잘라서 비교할 때 동영상의 해상도와 지속 시간이 동일한지 확인했습니다.

결과는 Movie Gen Video의 전반적인 평가 효과가 Runway Gen3 및 LumaLabs보다 훨씬 우수하고 OpenAI Sora보다 약간 우위에 있으며 Keling 1.5와 동등한 것으로 나타났습니다.

앞으로 Meta는 Movie Gen Video Bench, Movie Gen Edit Bench, Movie Gen Audio Bench를 포함한 여러 벤치마크를 공개하여 비디오 생성 모델에 대한 연구를 가속화할 계획입니다.

Movie Gen Audio 모델은 비디오 및 텍스트-오디오 생성을 위한 13B 매개변수 모델로, 음향 효과 및 음악을 포함하여 최대 45초의 고품질 및 충실도 오디오를 생성하고 비디오와 동기화할 수 있습니다.

이 모델은 Flow Matching과 DiT(확산 변환기) 모델 아키텍처를 기반으로 하는 생성 모델을 채택하고 제어 기능을 제공하기 위해 조건부 모듈을 추가합니다.

심지어 Meta의 연구팀은 모델이 초기 제한인 45초 이상으로 일관된 오디오를 생성할 수 있는 오디오 확장 기술을 도입했습니다. 즉, 모델은 비디오의 길이에 관계없이 일치하는 오디오를 생성할 수 있습니다.

보다 구체적인 정보는 기술 문서를 참조하세요.
https://ai.meta.com/static-resource/movie-gen-research-paper

어제 오픈AI 소라(OpenAI Sora) 대표 팀 브룩스(Tim Brooks)가 공식적으로 사임을 발표하고 구글 딥마인드(Google DeepMind)에 합류하면서 소라 프로젝트의 불확실한 미래에 다시 한번 안개가 꼈다.

Bloomberg에 따르면 Meta 부사장 Connor Hayes는 Meta Movie Gen이 현재 구체적인 제품 계획이 없다고 말했습니다. Hayes는 출시가 지연된 중요한 이유를 밝혔습니다.

Meta Movie Gen은 현재 텍스트 프롬프트를 사용하여 수십 분의 대기 시간이 필요한 비디오를 생성하는데, 이는 사용자 경험에 큰 영향을 미칩니다.

메타는 소비자의 요구를 더 잘 충족시키기 위해 비디오 생성 효율성을 더욱 향상시키고 가능한 한 빨리 모바일 단말기에서 비디오 서비스를 출시하기를 희망합니다.

실제로 제품 형태를 보면 메타무비젠의 기능적 디자인은 크고 포괄적인 것에 초점을 맞춰 다른 영상 모델처럼 '절름발이'하지 않는다.
가장 눈에 띄는 단점은 소라와 동일한 "미래" 풍미를 가지고 있다는 것입니다.

이상은 매우 충만하고 현실은 매우 마른 체형입니다.

현재 소라가 국내 대형 모델에게 추월당하고 있는 것처럼, 메타무비젠이 출시되면 영상제작 분야의 경쟁 구도가 다시 바뀔 수도 있다고 할 수 있다.

하지만 적어도 지금으로서는 메타가 그린 파이는 사람들이 삼키기에 충분하다.

# Aifaner: Aifaner(WeChat ID: ifanr)의 공식 WeChat 공개 계정을 팔로우하신 것을 환영합니다. 더 흥미로운 콘텐츠가 최대한 빨리 제공될 예정입니다.

Ai Faner | 원본 링크 · 댓글 보기 · Sina Weibo