
유튜브에서 애니메이션 스타일의 쇼츠를 보고 "저거 어떻게 만드는 거지?"라고 생각해 본 적 있으신가요? 저도 처음엔 당연히 팀이 만드는 줄 알았습니다. 직접 해보니 개인도 충분히 가능하더군요. 물론 쉽지만은 않았습니다. 그 과정에서 배운 것들을 솔직하게 풀어보겠습니다.
AI 음악 생성, 생각보다 까다로웠습니다
"AI로 노래를 만든다"는 말을 처음 들었을 때 반신반의했습니다. 막상 해보니 도구 자체보다 가사를 어떻게 써야 하는지가 훨씬 더 어려운 문제였습니다.
제가 사용한 방식은 이렇습니다. 먼저 제미나이(Gemini)에 구체적인 상황과 분위기를 입력해 가사를 뽑아내고, 그걸 미니맥스 오디오(MiniMax Audio)에 붙여 넣어 음악을 생성했습니다. 여기서 미니맥스 오디오란 텍스트 기반의 가사와 스타일 설명만으로 AI가 실제 노래를 만들어주는 생성형 음악 서비스입니다. 작곡 지식이 전혀 없어도 사용할 수 있다는 점이 핵심입니다.
처음엔 그냥 "멋있는 노래 만들어줘"라고만 했는데 결과가 영 애매하게 나왔습니다. 방향을 바꿔서 "긴장감", "경쟁", "대비"처럼 감정과 상황을 키워드로 구체화해 줬더니 결과물의 완성도가 확 달라졌습니다. 제가 직접 써봤는데, AI는 막연한 감각보다 조건을 명확히 줄수록 훨씬 정교하게 반응합니다.
한 가지 더 주의할 점이 있습니다. 스타일(장르, 분위기) 설명은 반드시 영어로 입력해야 미니맥스 오디오가 제대로 인식합니다. 한글로 넣으면 스타일이 적용되지 않거나 의도와 전혀 다른 결과가 나올 수 있습니다.
이미지 생성, "멋있게"는 통하지 않습니다
AI 음악보다 더 많이 막힌 구간이 이미지 생성이었습니다. 머릿속에 장면은 있는데, 그걸 텍스트 프롬프트(Prompt)로 옮기는 게 생각만큼 쉽지 않았습니다. 여기서 프롬프트란 AI에게 원하는 결과를 설명하는 텍스트 명령어를 말합니다. 프롬프트의 정밀도가 결과물의 품질을 거의 결정한다고 봐도 무방합니다.
저는 하일로 AI(Hailuo AI)를 사용했습니다. 참고 이미지를 업로드하면 그 스타일을 반영해 새로운 이미지를 생성해 주는 기능이 있어서, 흑백 요리사 2에 등장하는 실제 인물 이미지를 레퍼런스로 활용했습니다. 처음엔 "긴장감 있게", "강렬하게"처럼 감각적인 단어만 썼는데, 결과가 전혀 의도와 다르게 나왔습니다.
몇 번 실패하고 나서야 방식을 바꿨습니다. "어두운 배경", "불꽃이 튀는 장면", "인물이 정면을 바라보는 구도"처럼 조건을 시각적으로 분해해서 입력했더니 원하는 이미지가 나왔습니다. 또한 프롬프트 끝에 "일본 애니메이션", "글씨는 제거해 달라"는 문구를 넣는 것이 핵심입니다. 이 두 문구가 없으면 불필요한 텍스트가 이미지에 생성되거나 원하는 화풍이 적용되지 않습니다.
이미지 해상도는 2K로 설정하고, 화면 비율은 16:9로 맞추는 것을 권장합니다. 쇼츠는 9:16이지만, 영상 편집 단계에서 크롭(Crop)하는 방식을 고려하면 여유 있게 가로형으로 만드는 게 편합니다. 여기서 크롭이란 이미지나 영상의 원하는 영역만 잘라내는 편집 기법을 말합니다.
영상 편집, 결국 타이밍이 전부입니다
이미지가 완성되면 하일로 AI 안에서 바로 AI 영상으로 전환할 수 있습니다. 정지 이미지에 동작 프롬프트를 입력하면 6초 내외의 영상이 생성됩니다. 이 기능을 이미지-투-비디오(Image-to-Video)라고 부르는데, 정지된 이미지를 움직이는 영상으로 변환하는 생성형 AI 기법입니다.
생성된 영상을 편집할 때는 캡컷(CapCut)을 사용했습니다. 편집에서 가장 시간이 많이 걸린 건 노래 가사와 영상 클립의 타이밍을 맞추는 작업이었습니다. "차가운 스테인리스 위로 떨어지는 긴장감"이라는 가사가 흘러나올 때 해당 장면이 정확하게 등장해야 몰입감이 생깁니다.
편집할 때 실질적으로 효과가 좋았던 방법을 정리하면 다음과 같습니다.
- 노래 인트로가 길다면 가사가 시작되는 지점에서 잘라낸다
- 키프레임(Keyframe)을 추가해 영상이 서서히 확대되는 줌인 효과를 넣는다
- 자막은 자동 생성이 아닌 수동으로 가사와 타이밍을 직접 맞춘다
여기서 키프레임이란 영상의 특정 시점에 위치, 크기, 방향 등의 속성값을 지정하여 그 사이를 자동으로 움직이게 만드는 애니메이션 기법입니다. 단 몇 가지 설정만으로 정적인 영상에 생동감을 불어넣을 수 있습니다.
자막은 솔직히 귀찮았습니다. 그런데 하나씩 맞춰 넣다 보니 오히려 영상 흐름을 몸으로 익히게 됐습니다. 어디서 감정이 올라가고, 어디서 호흡을 쉬어야 하는지를 자연스럽게 파악하게 된 겁니다. 이건 자동화로는 절대 얻을 수 없는 감각이라고 생각합니다.
저작권, "다들 하니까 괜찮겠지"는 위험한 생각입니다
많은 분들이 "이 정도면 괜찮겠지"라는 기준으로 콘텐츠를 올립니다. 저도 처음엔 그랬습니다. 그런데 조금만 들여다보면 그 기준 자체가 굉장히 불안정하다는 걸 알게 됩니다.
TV 방송 프로그램을 패러디하거나 애니메이션 화하는 것은 원작자의 허락이 필요한 영역입니다. 공정 이용(Fair Use)이라는 개념이 있기는 합니다. 공정 이용이란 저작권법상 일정 조건 하에 저작물을 허락 없이 이용할 수 있도록 허용하는 예외 규정입니다. 비영리적 목적, 원작의 가치를 훼손하지 않는 창의적 재해석 등이 그 조건에 해당합니다. 단, 이 해석은 국가별, 상황별로 다르게 적용됩니다(출처: 한국저작권위원회).
특히 수익화가 붙는 순간 상황은 완전히 달라집니다. 유튜브 수익 창출이 활성화된 채널에서 타인의 지적재산권(IP, Intellectual Property)을 무단으로 활용하는 것은 법적 분쟁으로 이어질 수 있습니다. 여기서 지적재산권이란 창작물에 대해 창작자가 갖는 독점적 권리를 말하며, 방송 프로그램, 캐릭터, 음악 등이 모두 포함됩니다.
제가 나름대로 세운 기준은 세 가지입니다.
- 원작을 그대로 재현하지 않는다
- 제 해석과 연출을 반드시 넣는다
- 수익화 이전에 법적 리스크를 먼저 검토한다
실제로 유튜브는 콘텐츠 ID(Content ID) 시스템을 운영하고 있습니다. 콘텐츠 ID란 영상 내 저작권 보유 자료를 자동으로 감지해 수익을 차단하거나 영상을 삭제하는 유튜브의 자동화 저작권 관리 시스템입니다. 안 걸리면 괜찮다는 식의 접근보다, 처음부터 자신만의 색깔을 강하게 담는 쪽이 훨씬 안전하고 오래갑니다(출처: YouTube 고객센터).
국내 저작권법상 패러디와 원저작물의 경계는 여전히 명확하지 않은 회색 지대이므로, 불확실한 상황에서는 가능한 한 원작 의존도를 낮추는 방향을 선택하는 것이 현실적입니다.
결국 도구는 충분히 좋아졌습니다. 진짜 문제는 그 도구로 무엇을 만들 것인가입니다. 비슷한 스타일의 AI 영상이 쏟아지는 지금, 오래 살아남는 콘텐츠는 기술이 아니라 그 안에 담긴 관점에서 나온다고 생각합니다. 한 번 직접 만들어보시면 알게 됩니다. 완벽하지 않아도 괜찮습니다. 일단 완성해야 다음이 보이니까요.
참고: https://www.youtube.com/watch?v=jUw2o54tGAk&list=PLqEV_LPWk2ZtipUtCSO8_0G3OxmtX_02P&index=7