
솔직히 고백하자면, 저는 한동안 유튜브에 올라오는 AI 애니메이션 영상을 보면서 "저건 어딘가 전문 스튜디오에서 만드는 거겠지"라고만 생각했습니다. 그냥 넘겼던 그 영상들이, 사실은 누구나 따라 만들 수 있는 것이었다는 걸 직접 해보고 나서야 알게 됐습니다. 생각보다 훨씬 쉬웠고, 그보다 더 재밌었습니다.
캐릭터 생성, 생각보다 훨씬 정교합니다
처음 시작은 퇴근 후 소파에 누워 멍하니 쇼츠를 보다가였습니다. 어떤 개그맨의 무명 시절부터 성공까지를 짧게 풀어낸 AI 애니메이션 영상이었는데, 이상하게 눈을 못 떼겠더라고요. 단순히 그림이 예뻐서가 아니라 캐릭터가 말할 때 입모양까지 자연스럽게 따라 움직이니까 진짜 살아 있는 사람 같은 느낌이 들었습니다.
그날 밤 저도 한번 만들어 보기로 했습니다. 먼저 GPT에 인물 사진을 넣고 캐릭터 생성용 프롬프트를 영어로 만들어 달라고 요청했습니다. 여기서 프롬프트(Prompt)란 AI에게 원하는 결과물을 설명해 주는 명령어를 의미합니다. 솔직히 출력된 문장의 절반도 이해 못 했지만 그냥 복사해서 넣었습니다.
그 결과가 생각보다 훨씬 놀라웠습니다. 단순히 "닮았다"는 수준이 아니라, 그 인물 특유의 분위기와 눈매 느낌까지 묘하게 살아 있었습니다. 이때 활용한 기능이 페이스 매칭(Face Matching)입니다. 페이스 매칭이란 원본 인물 사진의 얼굴 특징을 AI가 분석해 생성 이미지에 반영하는 기술로, 덕분에 어느 방향을 바라봐도 동일 인물처럼 보이는 일관성이 확보됩니다.
캐릭터 스타일은 무려 88가지 옵션 중에서 고를 수 있었고, 저는 3D 렌더링 애니메이션 스타일을 선택했습니다. 요즘 핫하다는 나노바나 스타일도 있었는데, 확실히 퀄리티 면에서 눈에 띄게 차이가 났습니다. 캐릭터를 만들고 나면 정면, 좌우 측면 이미지를 따로 잘라서 AI에게 훈련(Training)을 시켜야 합니다. 훈련이란 여러 각도의 이미지를 학습시켜 이후 모든 장면에서 동일 캐릭터를 일관되게 출력하도록 모델을 최적화하는 과정입니다. 이 부분이 좀 반복 작업이라 집중력이 깨지긴 했는데, 끝내고 나서 결과물을 보면 확실히 그만한 값어치를 합니다.
립싱크 한 번 씌우면 영상이 완전히 달라집니다
장면별 이미지가 완성되면 이걸 영상으로 바꾸는 과정이 시작됩니다. 저는 클링(Kling) 3.0 모델을 선택했는데, 클링이란 중국의 AI 영상 생성 기업 쾌수가 개발한 고화질 비디오 생성 모델로, 현재 상용화된 AI 영상 생성 모델 중 완성도가 높은 편으로 평가받고 있습니다. 장면마다 GPT가 만들어 준 영상 생성용 프롬프트를 붙여 넣으면 움직이는 영상이 나왔습니다.
그런데 진짜 분위기가 바뀐 건 립싱크(Lip Sync)를 씌우고 나서였습니다. 립싱크란 영상 속 캐릭터의 입 모양을 음성 데이터에 맞게 실시간 생성하는 기술로, 쉽게 말해 AI가 알아서 캐릭터에게 말을 붙여 넣는다고 보면 됩니다. 제가 직접 써봤는데, 완성본을 처음 봤을 때 솔직히 소름이 돋았습니다. 분명 만들어진 캐릭터인데 실제 영상 속 인물처럼 느껴졌거든요.
립싱크 과정에서 실제 인물의 목소리 파일을 업로드하면 그 음성 패턴을 AI가 학습해 비슷한 음색으로 출력해 주는 보이스 클로닝(Voice Cloning) 기능도 있었습니다. 보이스 클로닝이란 특정 인물의 음성 샘플을 분석해 유사한 음성을 생성하는 기술입니다. 저는 이번에는 플랫폼 내장 AI 음성을 사용했지만, 실제 음성을 넣으면 몰입감이 훨씬 높아질 것 같았습니다.
제가 만든 1분짜리 첫 완성본을 친구에게 장난처럼 보냈더니 바로 전화가 왔습니다. "이거 진짜 네가 만든 거야?" 그 한마디에 괜히 뿌듯해졌습니다. 이 정도 퀄리티의 콘텐츠를 혼자 만들었다는 게 아직도 좀 신기합니다.
AI 인물 애니메이션 제작의 핵심 단계를 정리하면 다음과 같습니다.
- GPT로 캐릭터 생성 프롬프트 제작 (영어 출력 권장)
- 페이스 매칭 기능으로 원본 인물 사진 기반 캐릭터 생성
- 정면·측면 이미지 분리 후 AI 훈련 진행
- 장면별 이미지 생성 및 클링 3.0으로 영상 변환
- 립싱크 적용으로 몰입감 완성
AI가 만든 가짜, 어디까지 괜찮을까요
솔직히 만들면서 즐거웠는데, 동시에 복잡한 생각도 들었습니다. AI 기술이 딥페이크(Deepfake)와 연결될 수 있다는 우려는 이미 사회적으로 제기된 문제이기도 합니다. 딥페이크란 AI가 특정 인물의 얼굴이나 음성을 다른 영상에 합성해 실제처럼 보이게 만드는 기술로, 창작과 악용의 경계가 모호하다는 점에서 꾸준히 논란이 됩니다.
실제로 한국인터넷진흥원(KISA)은 AI 생성 콘텐츠의 진위 구별이 점점 어려워지고 있다고 경고하며, 딥페이크 탐지 기술과 관련 제도 정비의 필요성을 강조하고 있습니다(출처: 한국인터넷진흥원). 만드는 입장에서는 재밌는 창작이지만, 보는 사람 입장에서는 진짜와 가짜를 구분하기 어려울 수 있다는 점은 분명히 생각해 봐야 할 부분입니다.
또 한 가지 걱정되는 부분은 창작의 진정성입니다. 예전에는 영상 하나를 만들기 위해 밤새 편집을 고민했다면, 이제는 프롬프트 몇 줄로 결과물이 나옵니다. 기술 발전 측면에서는 분명 혁신이지만, 너무 빠르게 만들어지는 콘텐츠 안에서 사람의 감성과 고민이 희석되는 건 아닐까 싶었습니다. 과학기술정보통신부도 AI 생성 콘텐츠에 대한 이용자 리터러시(미디어 판별 능력) 교육 강화를 2024년 주요 과제로 포함한 바 있습니다(출처: 과학기술정보통신부).
그럼에도 제 생각은 기술 자체를 부정적으로만 볼 수는 없다는 쪽입니다. 어릴 적 꿈을 이루려 했던 나의 이야기나, 부모님의 젊은 시절 같은 개인적인 서사를 AI로 표현할 수 있다는 건 꽤 의미 있는 변화라고 느꼈습니다. 결국 기술의 화려함보다 거기에 어떤 마음을 담느냐가 더 중요한 시대가 온 것 같습니다.
요즘 저는 퇴근 후 커피 한 잔 옆에 두고 장면 하나씩 만드는 시간이 은근히 기다려집니다. AI 도구가 창작의 문턱을 낮춰 준 건 분명하니, 그 안에 담을 이야기를 더 잘 고민하는 쪽에 힘을 쓰면 충분히 의미 있는 결과물이 나올 거라고 생각합니다. 한번 직접 만들어 보시면 생각보다 빠르게 첫 완성본을 손에 쥘 수 있을 겁니다.