실시간 비디오는 AI 기술의 다음 도약이 될 수 있습니다.

Runway AI라는 뉴욕 스타트업의 소프트웨어 엔지니어인 Ian Sansavera는 비디오에서 보고 싶은 것에 대한 짧은 설명을 썼습니다. “숲속의 조용한 강” 책.

2분도 채 지나지 않아 테스트 인터넷 서비스는 숲 속의 잔잔한 강에 대한 짧은 비디오 클립을 생성했습니다. 흐르는 강물은 나무와 양치류를 가르고 모퉁이를 돌며 바위에 부드럽게 부딪히며 햇빛을 받아 반짝였습니다.

이번 주에 소수의 테스터에게 서비스를 제공할 계획인 Runway는 사람들이 컴퓨터 화면의 상자에 몇 개의 단어를 입력하기만 하면 비디오를 만들 수 있는 인공 지능 기술을 구축하는 여러 회사 중 하나입니다.

그들은 웹 브라우저만큼 중요한 차세대 기술이 될 수 있다고 믿는 새로운 유형의 AI 시스템을 만들기 위한 업계 경쟁의 다음 단계를 나타냅니다. Microsoft 및 Google과 같은 거대 기업과 훨씬 작은 신생 기업을 포함하는 경쟁입니다. 또는 아이폰.

새로운 비디오 제작 시스템은 영화 제작자 및 기타 디지털 아티스트의 작업 속도를 높이는 동시에 온라인에서 탐지하기 어려운 잘못된 정보를 생성하여 온라인에서 무엇이 진짜인지 구분하기 어렵게 만드는 새롭고 빠른 방법이 됩니다.

이 시스템은 텍스트, 이미지 및 소리를 즉시 생성할 수 있는 생성 인공 지능으로 알려진 것의 예입니다. 또 다른 예는 샌프란시스코 스타트업 OpenAI가 만든 온라인 챗봇인 ChatGPT로, 작년 말 그 기능으로 기술 산업을 놀라게 했습니다.

페이스북의 모회사인 구글과 메타 작년에 최초의 비디오 생성 시스템을 공개했습니다.그러나 그들은 시스템이 결국 새로운 속도와 효율성으로 허위 정보를 퍼뜨리는 데 사용될 수 있다는 우려 때문에 대중과 공유하지 않았습니다.

그러나 Runway의 CEO인 Cristobal Valenzuela는 위험에도 불구하고 이 기술이 연구실에 보관되기에는 너무 중요하다고 생각한다고 말했습니다. “이것은 지난 100년 동안 우리가 구축한 가장 인상적인 기술 중 하나입니다.”라고 그는 말했습니다. “실제로 사용하려면 사람이 필요합니다.”

영화와 비디오를 편집하고 조작하는 능력은 물론 새로운 것이 아닙니다. 영화 제작자들은 100년 넘게 이 일을 해왔습니다. 최근 몇 년 동안 연구원과 디지털 아티스트는 다양한 AI 기술과 프로그램을 사용하여 종종 가짜 동영상이라고 불리는 동영상을 만들고 편집했습니다.

READ 각성 예고편은 PS4 및 PS5 참조 • Eurogamer.net

그러나 Runway가 만든 것과 같은 시스템은 시간이 지나면 편집 기술을 버튼 하나로 대체할 수 있습니다.

활주로 기술은 짧은 설명의 비디오를 생성합니다. 시작하려면 간단한 메모를 작성하는 것처럼 설명을 작성하십시오.

장면에 “대도시의 비오는 날” 또는 “공원에서 휴대 전화를 들고 있는 개”와 같이 많은 동작이 아닌 약간의 동작이 포함된 경우에 가장 잘 작동합니다. Enter 키를 누르면 시스템이 1~2분 안에 비디오를 생성합니다.

이 기술은 양탄자 위에서 자고 있는 고양이와 같은 일반적인 이미지를 재현할 수 있습니다. 또는 서로 다른 개념을 결합하여 생일 파티의 소처럼 이상하고 재미있는 동영상을 만들 수도 있습니다.

동영상 길이는 4초에 불과하며 자세히 보면 동영상이 고르지 않고 흐릿합니다. 때로는 이미지가 이상하고 왜곡되고 혼란스럽습니다. 이 시스템은 개나 고양이와 같은 동물을 공이나 휴대폰과 같은 무생물과 융합시키는 방법을 가지고 있습니다. 그러나 올바른 방향이 주어지면 그는 기술이 향하는 곳을 보여주는 비디오를 제작하고 있습니다.

READ iPhone 13은 완전히 버튼이 없을 수 있습니다. 대신 애플이 할 수있는 일

“이 시점에서 HD 비디오를 보면 아마도 그것을 믿을 것입니다. 그러나 그것은 매우 빠르게 변할 것입니다.”라고 MIT의 인공 지능 전문 교수인 Philip Isola는 말했습니다.

다른 생성 AI 기술과 마찬가지로 Runway의 시스템은 숫자 데이터(이 경우 사진, 비디오 및 해당 이미지에 포함된 내용을 설명하는 주석)를 분석하여 학습합니다. 점점 더 많은 양의 데이터에 대해 이러한 유형의 기술을 교육함으로써 연구자들은 자신의 기술을 빠르게 개선하고 확장할 수 있다고 확신합니다. 곧 전문가들은 그들이 음악과 대화로 완성된 전문가 수준의 미니 영화를 만들 것이라고 믿습니다.

시스템이 현재 무엇을 만들고 있는지 말하기는 어렵습니다. 사진이 아닙니다. 만화가 아닙니다. 사실적인 비디오를 만들기 위해 함께 혼합된 많은 픽셀 모음입니다. 회사는 전문 아티스트의 작업 속도를 높일 것으로 믿는 다른 도구와 함께 기술을 도입할 계획입니다.

지난 한 달 동안 소셜 미디어는 흰색 발렌시아가 푸퍼 코트를 입은 프란치스코 교황의 사진으로 떠들썩했습니다. 하지만 사진은 진짜가 아니었다. 시카고에서 온 31세의 건설 노동자가 상당한 파문을 일으켰습니다. Midjourney라는 인기 AI 도구 사용.

Isola 박사는 처음에는 University of California, Berkeley와 OpenAI의 연구원으로, 그 다음에는 MIT의 교수로 이러한 유형의 기술을 구축하고 테스트하는 데 수년을 보냈습니다. 프란치스코 교황의 완전히 가짜 사진.

“사람들이 딥 페이크를 게시하고 너무 이상하거나 너무 비현실적이기 때문에 나를 속이지 않을 때가 있었습니다.”라고 그는 말했습니다. “이제 우리는 온라인에서 보는 이미지를 액면 그대로 받아들일 수 없습니다.”

Midjourney는 짧은 프롬프트에서 사실적인 스틸 이미지를 만들 수 있는 많은 서비스 중 하나입니다. 다른 애플리케이션으로는 Stable Diffusion과 DALL-E가 있습니다. DALL-E는 1년 전에 공개되었을 때 이 이미지 생성기의 물결을 시작한 OpenAI 기술입니다.

Midjourney는 방대한 양의 데이터를 분석하여 기술을 학습하는 신경망에 의존합니다. 수백만 장의 디지털 이미지와 촬영 중인 이미지를 설명하는 텍스트 캡션을 통해 패턴을 찾습니다.

누군가가 시스템의 이미지를 설명할 때 이미지가 가질 수 있는 기능 목록을 작성합니다. 한 가지 특징은 개의 귀 상단에 있는 곡선일 수 있습니다. 다른 하나는 휴대폰의 가장자리일 수 있습니다. 다음으로 확산 모델이라고 하는 두 번째 신경망이 이미지를 생성하고 속성에 필요한 픽셀을 생성합니다. 마지막으로 픽셀을 일관된 이미지로 변환합니다.

READ iOS용 WhatsApp에서 비밀번호 키를 사용하여 비밀번호 없는 로그인을 출시합니다.

약 40명의 직원이 있고 9,550만 달러를 모금한 Runway와 같은 회사는 이 기술을 사용하여 움직이는 이미지를 만들고 있습니다. 수천 개의 비디오 클립을 분석함으로써 그들의 기술은 유사한 일관된 방식으로 많은 스틸 이미지를 함께 연결하는 방법을 배울 수 있습니다.

“비디오는 움직임의 환상을 제공하는 방식으로 결합된 일련의 프레임(정지 이미지)일 뿐입니다.”라고 Valenzuela씨는 말했습니다. “비결은 각 프레임워크 간의 관계와 일관성을 이해하는 모델을 훈련시키는 것입니다.”

DALL-E 및 Midjourney와 같은 초기 버전의 악기와 마찬가지로 이 기술은 때때로 이상한 방식으로 개념과 이미지를 결합합니다. 농구하는 곰을 주문하면 LED 농구로 일종의 변신 인형을 줄 수도 있다. 공원에서 휴대폰을 들고 있는 개에게 물어보면 외계인의 몸을 가진 휴대폰을 든 강아지를 줄 수도 있다.

그러나 전문가들은 점점 더 많은 데이터에 대해 시스템을 훈련시키면 결함을 수정할 수 있다고 믿습니다. 그들은 기술이 결국 동영상을 문장을 쓰는 것만큼 쉽게 만들 수 있게 해줄 것이라고 믿습니다.

“예전에는 원격으로 이와 같은 작업을 수행하려면 카메라가 있어야 했습니다. 소품이 있어야 했습니다. 위치가 있어야 했습니다. 허가가 있어야 했습니다. 제너레이티브 비디오 기술의 초기 화신을 경험한 상태는 “돈이 있었어야 했다”며 “지금은 그런 게 없어도 된다. 그냥 앉아서 상상하면 돼.”

Seung Jae-Hwa

“재화는 뛰어난 분석 능력을 가진 분석가로, 다양한 주제에 대한 깊은 통찰력을 가지고 있습니다. 그는 창조적인 아이디어를 바탕으로 여러 프로젝트를 주도해왔으며, 좀비 문화에 특별한 애정을 갖고 있습니다. 여행을 사랑하며, 대중 문화에 대한 그의 지식은 깊고 폭넓습니다. 알코올에 대한 그의 취향도 독특합니다.”

실시간 비디오는 AI 기술의 다음 도약이 될 수 있습니다.

Up next

마술로 원숭이를 속일 수 있나요? 반대쪽 엄지손가락이 있는 경우에만 – Ars Technica

Author

Seung Jae-Hwa

차세대 챗봇

답글 남기기 응답 취소

구글은 구글 쇼핑 앱을 죽이고있다

거대 비디오 게임 회사가 직원 650명을 해고했습니다.

Microsoft는 이제 Windows 11에서 OneDrive가 죽은 이유를 묻습니다.

Firefox 85 ditches Flash and strengthens privacy protection

파리 올림픽: 임슈터가 세계 신기록을 세워 한국, 카우폴드의 사냥 의지를 알렸다.

캡콤이 2024년에 세상에 속하지 않는 게임을 만들었는데 대단하네요

베네수엘라 선거: 유권자들이 마두로를 재선하게 될까요, 아니면 야당에게 기회를 줄까요?

김정은, 3년간의 쇠퇴 이후 2023년 북한 성장 이끌다

실시간 비디오는 AI 기술의 다음 도약이 될 수 있습니다.

Up next

Author

Seung Jae-Hwa

차세대 챗봇

답글 남기기 응답 취소

You May Also Like