최근 챗-GPT를 만든 오픈 AI(Open AI)가 텍스트로부터 영상을 생성하는 새로운 AI 영상 생성 모델 소라(Sora)를 공개했다. 소라는 지금까지 나온 어떠한 AI 영상 생성기와는 비교할 수 없는 상당한 퀄리티로 영상을 생성할 수 있다. 따라서 앞으로 드라마와 영상 제작의 판도도 꽤 많이 바뀔 듯싶다.
- 오픈형 디자인과 노이즈 캔슬링의 결합, 에어팟 4세대
- 애플워치 X와 갤럭시워치 7의 핵심구매 포인트
- 아이폰 16 시리즈와 갤럭시 S24 시리즈 핵심구매 포인트
- 생활 속 유용한 서비스, 알고 있으면 더 안전하고 풍요로운 일상
- 피로와 스트레스를 이겨내는 필수영양소 비타민 B군
● 기존의 AI 영상 생성기와 격이 다른 소라(Sora)
현재 오픈 AI Sora 홈페이지를 방문하면 다양한 샘플 AI 영상을 모두 볼 수 있는데 그중 대표적인 AI 영상 중 하나는 아래의 영상으로, 해당 영상은 아래의 영상으로 다음과 같은 프롬프트로 만들어진 결과라고 할 수 있다.
“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about. more”
“도쿄의 한 거리를 따라 멋진 여성이 걷고 있다. 따뜻한 빛이 비추는 거리에는 화려한 네온사인과 애니메이션으로 된 도시 표지판이 가득하다. 그녀는 검은 가죽 재킷을 입고 긴 붉은색 드레스와 검은 부츠를 신었으며 검은 핸드백을 들고 있다. 선글라스를 쓰고 붉은 립스틱을 바르고 있다. 그녀는 자신감 있고 여유로운 표정으로 걸어가고 있다. 거리는 축축하고 반사되어 다양한 빛깔의 조명이 반사되는 거울 효과를 만들어낸다. 많은 보행자들이 다니고 있다.”
놀라운 것은 영상 중 얼굴이 클로즈업 되는 장면이 있는데 피부 표현도 자연스럽고, 여성의 선글라스에 반영되는 주변 또한 굉장히 사실적으로 표현되고 있다는 것이다. 또한 오픈 AI 소라가 다른 AI 영상 생성기와 차별화되는 점은 최대 1분 동안의 매우 현실적인 비디오를 생성할 수 있다는 점이다.
더욱 놀라운 것은 소라는 매인이 아닌 주변에 있는 여러 캐릭터의 유형과 동작 및 배경의 세세한 부분까지 프롬프팅하는 경우 그에 따른 디테일한 영상을 생성해 낼 수 있다는 것이다.
● 프롬프트를 논리적으로 이해하는 소라(Sora)
오픈 AI에서 발표한 내용과 인터뷰한 내용들을 보면 특정한 프롬프트를 통해 메인이 되는 물체를 지정하고 이에 대한 설명을 자세히 넣어주는 경우 AI가 이러한 텍스트를 바탕으로 세상을 논리적으로 이해하고 있다는 내용을 볼 수 있다. 즉, 프롬프트를 어떻게 넣어주느냐에 따라 영상의 퀄리티 또는 내용이 달라질 수 있다는 말이다.
실제로 오픈 AI 사이언티스트인 ‘팀 브룩스’(Tim Brooks)는 AI가 여러 영상들을 학습할 때 그냥 흉내 내는 수준이 아닌, 영상 내에서 각각의 물체들이 어떻게 상호작용을 하고, 물체들이 어떤 물리적인 움직임을 할 것인가 하는 이러한 모든 것들을 이해하고 있어야 제대로 된 영상을 만들 수 있을 것이라 판단하고 있으며 또 이것을 제대로 하는 것이 앞으로의 모든 AI 시스템에서 상당히 중요한 단계라고 말하고 있다.
또한 프롬프트, 즉 텍스트로 영상을 생성할 수 있을 뿐만 아니라 이미지와 프롬프트를 함께 넣는 경우 이미지를 바탕으로 더 멋지고 디테일한 영상을 생성할 수도 있다.
● 오픈 AI 소라(Sora)가 영상을 학습하는 방식
오픈 AI 소라의 샘플 영상 중 가장 놀라웠던 영상은 아래의 영상으로, 도쿄의 교외를 지나가는 열차 안에서 어떤 여성이 차창 밖의 풍경 영상을 촬영하고 있는 모습의 AI 영상이다.
Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.(프롬프트: 도쿄 교외를 통과하는 기차 창문에 비친 풍경.)
*중간·중간 어두운 터널 등을 지날 때 차창에 잠깐잠깐 비치는 모습까지도 매우 사실적으로 표현된 것이 놀랍다.
이렇게 리얼리스틱한 영상을 만들 수 있는 힌트가 되는 오픈 AI 인터뷰 내용이 있었는데, 그 인터뷰 내용에서 소라가 기술적으로 달라진 부분은 기존에 달리 3(DALL·E 3)나 디퓨전(Diffusion) 모델을 사용한 것은 맞지만 대부분의 다른 경쟁사와는 다르게 디퓨전 모델에 트랜스포머, 즉 대규모 언어 모델(LLM)을 결합시켰다는 것이다.
다시 말해, GPT 4와 같은 대규모 언어 모델을 디퓨전 모델에 결합시켜 언어를 더욱 잘 이해함과 동시에 영상을 생성하는 방식으로 접근 했다는 말이다. 그런데 더 놀라운 것은, 영상을 자연스럽게 표현하기 위해 학습 시 청크(Chunk)를 낸다는 것이다. 즉, 영상을 작은 단위로 쪼개 그 작은 부분 하나하나 모두 학습시킨다는 말이다.
종전까지는 짧고 단순한 AI 영상만을 생성할 수 있었다. 하지만 소라가 해상도와 지속시간, 종횡비, 그리고 카메라의 방향과 시점 등 기존의 다른 프롬프트 기반 AI 영상 모델보다 더 다양한 유형의 영상을 생성할 수 있었던 이유는 앞서 언급했듯이 비교적 플레이타임이 긴 다양한 영상들의 소스를 작게 조각내어 그 조각 하나하나를 학습하는 방식으로 각각의 모든 요소들을 모두 학습할 수 있었기 때문이다.
결과적으로 어떠한 물리적인 움직임도 굉장히 자연스럽게 표현해 낼 수 있게 된 것이다. 물론 아직까지 부족한 점이라고 소라 홈페이지에서 예시를 보여주고 있는데, 아래의 러닝머신을 역방향으로 하고 있는 영상과 강아지들의 모습이 서로 겹치고 여러 마리가 생기는 영상을 보면 아직까지 정확한 물리적 법칙 구현이 이루어지지 않는다는 것을 알 수 있다.
하지만 필자는 이러한 부분들이 결국 영상을 정말 작은 단위로 조각내어 얼마나 많은 데이터를 학습하느냐에 따라 충분히 해걀될 수 있는 문제라고 생각한다.
● AI 영상 생성에 대한 부정적인 견해
하지만 AI 영상이 잠재적인 피해를 만들 수 있다는 부정적인 견해도 있다. 특히 미국의 경우 대선을 앞두고 있어 AI를 통해 가짜 영상을 조작하거나 최근 이슈가 된 테일러 스위프트(Taylor Swift)의 딥페이크 사건을 보더라도 그렇다.
따라서 현재 오픈 AI 소라는 일반인에게는 사용을 공개하지 않고 있으며 AI 사용에 대한 잠재적인 피해와 위험을 평가하는 레드팀, 그리고 매우 한정적으로 시각 예술가와 디자이너 등에게 액세스를 제공해 피드백을 받고 있다. 즉, 오픈 AI측은 아직 소라를 릴리즈(공개 발표)한 것이 아니라는 말이다.
● 아직 기약이 없는 소라(Sora)의 정식 출시
그리고 아직까지 정식 출시할 예정은 없다고 발표했는데, 그 이유는 앞서 언급한 것처럼 결국 AI로 제작한 영상들이 양산될 경우 가짜 뉴스가 다량 만들어 질 수 있어 이것으로 인한 사회적인 문제가 발생할 수 있기 때문이다.
마치며
오픈 AI의 챗-GPT가 발표되고 나서 불과 1년 3개월이라는 시간이 흘렀는데 또 이렇게 오픈 AI의 AI 영상 생성기인 소라가 공개되었다.
정말 AI는 빠르게 발전하고 있다는 것을 다시 한 번 느낄 수 있었다. 소라는 출시 전까지 다양한 영상 데이터들을 계속 심화 학습할 것으로 보이며 이러한 속도로 본다면 적어도 내년인 2025년에는 출시되어 일반 사람들도 사용이 가능하지 않을까 싶다.