확대 / Stability AI의 Stable Video Diffusion을 사용한 동영상의 예는 아직 남아 있습니다.

안정성 AI

화요일에는 AI가 안정화됐다. 출시된 Stable Video Diffusion은 스틸 이미지를 짧은 비디오로 변환할 수 있는 새로운 무료 AI 기반 연구 도구로 다양한 결과를 제공합니다. 이는 이미지-비디오라는 기술을 사용하고 Nvidia GPU가 있는 시스템에서 로컬로 실행할 수 있는 두 가지 AI 모델의 공개 미리보기입니다.

작년에 Stability AI는 개방형 이미지 합성의 물결을 일으키고 자체 맞춤형 개선으로 기술을 구축한 대규모 애호가 커뮤니티에 영감을 준 “개방형 무게” 이미지 합성 모델인 Stable Diffusion을 출시하여 큰 반향을 일으켰습니다. 환경. Stability는 이제 기술이 아직 초기 단계이지만 AI 비디오 합성에서도 동일한 작업을 수행하려고 합니다.

현재 Stable Video Diffusion은 두 가지 모델로 구성되어 있습니다. 하나는 14프레임에서 이미지-비디오 합성을 생성할 수 있는 모델(“SVD”라고 함)이고 다른 하나는 25프레임을 생성하는 모델(“SVD-XT”라고 함)입니다. 초당 3~30프레임의 다양한 속도로 작동할 수 있으며 576 x 1024의 해상도로 짧은 MP4 비디오(보통 2~4초 길이)를 출력합니다.

로컬 테스트에서는 Nvidia RTX 3060 그래픽 카드에서 14프레임 생성을 생성하는 데 약 30분이 걸렸지만 사용자는 다음과 같은 서비스를 통해 클라우드에서 훨씬 빠르게 실행되는 모델을 경험할 수 있습니다. 얼굴 포옹 그리고 복제 (그 중 일부는 비용을 지불해야 할 수도 있습니다). 우리 실험에서 생성된 애니메이션은 일반적으로 장면의 일부를 그대로 유지하고 팬 및 확대/축소 효과나 애니메이션 연기 또는 불을 추가합니다. 사진 속의 사람들은 종종 움직이지 않지만 약간 활기를 주기 위해 Steve Wozniak의 Getty 사진을 얻었습니다.

(참고: Steve Wozniak Getty Images 이미지 외에 이 기사의 다른 애니메이션은 DALL-E 3을 사용하여 제작되었으며 Stable Video Diffusion을 사용하여 애니메이션되었습니다.)

이러한 제한 사항을 고려할 때 안정성은 모델이 아직 초기 단계이며 연구용으로만 사용된다는 점을 강조합니다. “우리는 최신 개발 사항으로 모델을 열심히 업데이트하고 여러분의 피드백을 반영하기 위해 노력하고 있지만, 이 모델은 현 단계에서 실제 또는 상업용 응용 프로그램을 위한 것이 아닙니다. 안전과 품질에 대한 여러분의 통찰력과 피드백은 이 모델을 개선하는 데 중요합니다. 최종 릴리스”라고 회사는 웹 사이트에 썼습니다.

READ  다용도 Dell UltraSharp 4K 웹캠은 AI 기술을 사용하여 프레임을 유지합니다.

안정화된 비디오의 보급은 주목할 가치가 있지만 아마도 놀라운 것은 아닙니다. 연구 논문 모델에 대한 훈련 데이터세트의 출처는 밝히지 않았지만, 연구팀이 580개로 구성된 LVD(Large Video Dataset)로 구성한 “약 6억 개 샘플의 대규모 비디오 데이터세트”를 사용했다고만 말합니다. 백만 개의 주석이 달린 동영상. 212년에 걸친 콘텐츠.

Stable Video Diffusion은 이러한 유형의 기능을 제공하는 최초의 AI 모델이 아닙니다. 이전에는 Meta, Google 및 Adobe의 방법을 포함한 다른 AI 비디오 합성 방법을 다루었습니다. 우리는 또한 오픈 소스 ModelScope와 현재 최고의 AI 비디오 모델로 간주되는 Runway의 Gen-2 모델(베카 연구소 또 다른 AI 기반 비디오 제공업체입니다.) Stability AI는 이미지 대신 서면 메시지를 사용하여 짧은 비디오를 만들 수 있는 텍스트-비디오 모델도 개발 중이라고 밝혔습니다.

안정적인 비디오의 소스 및 전파 가중치 사용 가능 GitHub에서 로컬로 테스트하는 또 다른 쉬운 방법은 파일을 통해 실행하는 것입니다. 피노키오 플랫폼설치 종속성을 쉽게 처리하고 자체 환경에서 모델을 실행합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like

오늘 저는 Nvidia의 RTX Voice가 구형 GTX 그래픽 카드에서 작동한다는 것을 배웠습니다.

고가의 RTX 그래픽 카드에서만 처음으로 마이크를 통해 발생할 수있는 배경 소음을 제거하는…

Ubisoft Ubisoft는 DLC DLC가 Assassin’s Creed Valhalla에 포함되어야 한다고 밝혔습니다.

Assassin’s Creed는 2009년부터 2015년까지 연간 주요 릴리스가 있는 매우 큰 프랜차이즈가 아니라면…

Apple M3 Pro 칩은 M1/M2 Pro 칩보다 메모리 대역폭이 25% 적습니다.

새로운 14인치 및 16인치 MacBook Pro에 탑재된 Apple의 최신 M3 Pro 칩은…

이 카메라는 초당 156.3조 프레임을 캡처합니다.

과학자들은 초당 156.3조 프레임에 해당하는 개별 픽셀당 156.3테라헤르츠(THz)의 인코딩 속도로 이미지를 캡처하는…