Apple은 현재 AI 게임에서 최고의 플레이어 중 하나는 아니지만 사진 편집을 위한 회사의 새로운 오픈 소스 AI 모델은 해당 분야에 어떤 기여를 할 수 있는지 보여줍니다. 이 모델은 MGIE(MLLM 유도 이미지 편집)라고 하며, MLLM(다중 모드 대형 언어 모델)을 사용하여 이미지를 처리할 때 텍스트 기반 명령을 해석합니다. 즉, 이 도구에는 사용자가 입력하는 텍스트를 기반으로 이미지를 편집하는 기능이 있습니다. 이를 수행할 수 있는 최초의 도구는 아니지만 “인간의 지시는 때로는 기존 방법으로 캡처하고 따르기에는 너무 짧습니다.” 프로젝트 시트 (PDF) 읽어보세요.

이 회사는 캘리포니아 대학교 산타바바라 캠퍼스의 연구원들과 함께 MGIE를 개발했습니다. MLLM은 단순하거나 모호한 텍스트 프롬프트를 이미지 편집기가 직접 따를 수 있는 보다 자세하고 명확한 지침으로 바꾸는 기능을 갖추고 있습니다. 예를 들어, 사용자가 페퍼로니 피자의 이미지를 “건강하게 만들기” 위해 편집하려는 경우 MLLM은 이를 “야채 토핑 추가”로 해석하고 이미지를 편집할 수 있습니다.

피자, 치타, 컴퓨터 및 사람들의 사진.피자, 치타, 컴퓨터 및 사람들의 사진.

사과

MGIE는 이미지를 크게 변경하는 것 외에도 텍스트 프롬프트를 통해 이미지 자르기, 크기 조정 및 회전은 물론 밝기, 대비 및 색상 균형을 향상시킬 수도 있습니다. 또한 이미지의 특정 영역을 수정할 수 있으며, 예를 들어 사진 속 사람의 머리카락, 눈, 옷을 수정하거나 배경의 개체를 제거할 수 있습니다.

좋다 벤처비트 Notes, Apple을 통해 모델 출시 깃허브하지만 관심 있는 사람들은 다음을 시도해 볼 수도 있습니다. 실험적인 현재 Hugging Face Spaces에서 호스팅되고 있습니다. Apple은 이 프로젝트에서 배운 내용을 자사 제품에 통합할 수 있는 도구나 기능에 사용할 계획인지 아직 명확하게 밝히지 않았습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like

PS5용 Until Dawn 리마스터는 State of Play 2024 이벤트에서 발표되었습니다.

몇 주간의 소문 끝에 소니가 마침내 이를 확인했습니다. 새벽까지 리마스터는 2024년 1월…

프라임 데이를 놓치는 것이 두렵나요? 7월 Best Buy에서 블랙 프라이데이 동안 수백 달러를 절약하세요

베스트바이에서 $80 충전 케이스가 포함된 Apple AirPods(2세대): 80달러 $50 절약 Best Buy에서…

가상 현실의 선구자 존 카맥이 세상을 떠났다

존 카맥The New York Times가 검토한 내부 간행물에 따르면 가상 현실 기술의…

연구원은 Dirty Pipe 익스플로잇을 사용하여 Pixel 6 Pro 및 Samsung S22를 완전히 근절합니다.

연구원은 새로 발견된 운영 체제 결함을 악용하는 힘을 보여주는 해킹에서 두 가지…