새소식

News

[AI Summary] Microsoft 영상 생성AI VASA-1 공개, 사진과 음성으로 움직이는 영상 생성 AI 공개

  • -
반응형

 

[AI Summary] 

SOURCE: https://www.youtube.com/watch?v=-3Y9qgCP2FY

3줄 요약

  • 마이크로소프트가 사진과 음성을 활용해 실시간으로 동영상을 생성하는 혁신적인 기술 발표
  • 기술은 알리바바의 것보다 더 정교하고 자연스러운 결과물 제공
  • 이 기술은 다양한 분야에 적용 가능하며 미래에 많은 가능성을 가짐.

 

 

영상 요약 및 정리

마이크로소프트 리서치 팀이 얼마나 혁신적인 기술을 개발했는가?


마이크로소프트 리서치에서 음성과 사진을 활용하여 다양한 각도로 동영상을 생성하는 혁신적인 기술을 발표했어요.
알리바바의 프로토타입과 비교하여 더 정교하고 자연스러운 결과물을 제공했고, 사진과 음성만으로 사실적인 영상을 만들어내며 혁신적이라고 판단돼 배포에 어려움을 겪을 정도였어요.
향후에는 마이크로소프트가 이 기술을 어떻게 적극 활용할지 기대된다고 해요.

사진 합성 기술 소개


사진과 오디오를 합성하는 모나리자인 파파라치 악과 싱정이 생생함을 제공하는 기술 소개해요.
마이크로소프트 리서치 아시아에서 중국인들을 중심으로 리서치를 통해 생성된 talking FA 기술을 소개하며, 알리바바 그룹의 모델인 이모라는 모델 이모트 포레이 Alive를 소개하죠.
퓨전 모델과 트랜스포머를 결합하여 정교한 결과물을 생산하는 방법 또한 소개돼요.

마이크로소프트의 얼굴 생성 모델과는?


마이크로소프트의 바사 1 모델은 새로운 오디오를 받아 얼굴을 생성하는데 초점을 맞추고 있어요.
얼굴 전체의 모양과 움직임을 종합적으로 모델링하며 입술, 표정, 눈동자, 눈썹 등을 포함하여 학습해요.
얼굴 생성을 위해 풍부한 비디오 데이터를 학습하여 다양한 표현이 가능한 모델을 개발하고 있어요.

세밀한 오디오/비주얼 조정의 방법은?


리얼타임 센싱을 통해 피치, 속도, 볼륨 등을 조절하고 시선 방향, 얼굴 카메라 거리, 감정 변화 등을 디테일하게 조절할 수 있어요.
트랜스포머 아키텍처를 기반으로 한 디퓨전 모델은 세밀한 조정이 가능합니다.
영상 생성 시 트랜스포머 토큰 단위로 적용되며, 세부 설명은 AI 모델을 통해 전달돼요.
이러한 과정을 통해 오디오부터 비주얼까지 세밀한 처리를 할 수 있음을 보여줍니다.

얼굴 생성과 트랜스포머의 활용?


얼굴 영상 데이터셋을 활용해 얼굴 형태와 표정을 학습하고, 오디오 피처와 모션 레이턴트 등을 고려하여 특정 부분 움직임을 분해하고 학습해요.
트랜스포머를 통해 잠재적인 공간에서 디퓨전 모델 트레이닝하며, 역과정을 통해 비디오 생성 시 오디오와 표정을 함께 고려한 구조를 이용하죠.
피처의 변화량 및 성격 추가로 얼굴 생성을 더 풍부하게 표현 가능하며, 벤치마크 점수를 통해 모델의 성능을 평가하고, 머리 움직임 등 실제감을 중요시해요.

이미지 생성 기술의 특징은?


전반적인 품질 평가에 대한 설명 후 샘플이 각각 300, 200, 100점으로 높은 품질을 나타냈어요.
생성된 이미지는 페이크같이 실감이 느껴지며, 다양한 표현과 세부조절이 가능하죠.
감정 표현에서 화남, 기쁨, 특이함 등의 다양한 감정 표현이 가능하며, 디즈니 픽사와 유사하게 애니메이션을 생성하는 것이 가능해요.
이러한 기술은 다양한 분야에 적용이 가능하며, 이미지에서 표정 등 다양한 부분을 조절할 수 있어요.

리얼타임 렌더링 기술의 발전 가능성은?


미국의 선거철과 다른 걱정으로 배포를 미루는 현실적 이유가 있는데, 알리바바와 마이크로소프트에서 나온 기술들이 발전 가능성을 보여줘요.
512x512 사이즈, 초당 45프레임으로 리얼타임 렌더링은 PC에 최신 GPU로도 가능하며 레이턴시가 낮아요.
이러한 발전이 계속된다면 미래에 많은 가능성을 가질거예요.
반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.