마스코트 캐릭터

AI 이미지 자동화 이야기다. 이미지 제작 자동화, 어디까지 오셨나요? (feat. 한계 극복기)
유튜브나 틱톡 같은 숏폼, 롱폼 영상을 매일 찍어내다시피 만드는 분들이라면 누구나 공감하실 겁니다.
영상의 퀄리티를 결정짓는 가장 핵심적인 요소가 바로 '비주얼',
즉 이미지와 영상 소스라는 것을요.

오늘은 제가 그동안 머리를 싸매고 진행해 온 이미지 생성부터 최종 영상 제작까지의 자동화 파이프라인과,
그 과정에서 겪은 생생한 시행착오를 공유해보려 합니다.
한마디로 이건 제 AI 이미지 자동화 도전기입니다.
전체적인 흐름은 이렇습니다.
'이미지 생성 및 분위기에 맞춘 프롬프트 적용 ➔ 동작 및 캐릭터 고정 ➔ 배경 합성 ➔ 최종 영상화' 단계입니다.

AI 이미지 자동화, 어디까지 왔나

AI 이미지 자동화 - 모니터 화면을 보며 고민하는 검은 셔츠 입은 남자 — 이미지: AI 생성

첫 단계인 이미지 생성은 사실 AI를 조금이라도 다뤄보신 분들이라면 익숙하실 겁니다.
요즘은 제미나이나 그록 같은 AI 툴 성능이 워낙 좋아져서,
복잡한 영어 프롬프트가 없어도 그냥 한국어로 편하게 대화하듯 요구하면 알아서 척척 그려주니까요.

예를 들면 "이런 행동을 하는 귀여운 소를 한 마리 그려줘"라고 입력하는 식입니다.

그런데 이걸 매일, 그것도 수십 번씩 반복하다 보니 엄청난 번거로움이 발생했습니다.
채널의 정체성을 유지하려면 '고정된 마스코트 캐릭터'가 필요한데,
매번 새로 생성할 때마다 소의 모양이나 색상이 미묘하게 달라지는 문제가 있었습니다.
마스코트 이미지를 일관되게 유지하기 위해 이미지를 새로 뽑고,
마음에 안 들면 또 생성하고, 수정하는 단순 반복 작업이 계속되다 보니 피로감이 엄청났습니다.

고백하자면 올 초까지만 해도 '이미지 투 이미지(Image to Image)' 기능을 제대로 활용하지 못하는 상태였습니다.
이미 완성된 기존 이미지를 기반으로 새로운 동작을 재생성한다는 개념 자체를 생각하지 못했던 거죠.

검은 셔츠 입은 남자가 턱을 괴고 생각에 잠긴 모습 — 이미지: AI 생성

하지만 지금은 기술이 정말 좋아졌습니다.
기존에 만들어 둔 마스코트 이미지를 베이스로 넣어두고,
"이 캐릭터가 오른쪽으로 걸어가는 동작을 만들어줘" 혹은
"이 이미지가 자연스럽게 움직이게 해줘"라고 말만 해도
기본적인 움직임이나 턴어라운드 동작을 구현해 주니까요.

마스코트 고정과 배경 합성

그래서 저는 현재 프레임 워크를 조금 바꾸어 사용하고 있습니다.
우선 채널을 대표할 중심 마스코트 캐릭터 이미지를 먼저 고정으로 생성합니다.
그 다음, 영상의 분위기에 맞는 별도의 배경 이미지를 따로 생성하죠.
최종적으로 이 두 가지 요소를 레이어 형태로 투명하게 합성하는 방식을 1차적으로 사용하고 있습니다.
이렇게 하면 캐릭터가 배경에 묻히지 않고 깔끔하게 분리되어 제어하기가 훨씬 수월해집니다.

한도 제한이라는 벽

그런데 여기서 또 다른 예상치 못한 장벽에 부딪혔습니다.
완성도를 높이려고 캐릭터와 배경을 반복해서 수정하고 재생성하다 보니,
API나 플랫폼 자체의 '하루 사용 한도 제한'이 툭하면 걸려버리는 것입니다.
한참 작업 속도가 붙어서 코드를 수정하고 테스트해야 하는 타이밍에 제한 메시지가 뜨면 정말 맥이 탁 풀립니다.
현재로서는 이 부분이 가장 큰 걸림돌입니다.

이 한도 제한 문제를 해결하기 위해 제가 찾은 방안은 무식하지만 가장 확실한 방법뿐이었습니다.
예외 처리를 꼼꼼하게 해두고, 최대한 여러 번 나눠서 실행해 보는 것이죠.
자동화 코드를 돌리다가 실패하면, 실패한 에러 로그 부분을 제외하고 다시 필터링해서 부분 테스트를 반복하는 수밖에 없습니다.
결국 이미지나 배경을 생성하는 것도 인간의 '상상력'과 '기획력'이 기준이 되어야 하는 영역이다 보니,
매번 완벽한 프롬프트를 짜내는 게 여간 힘든 일이 아닙니다.
그래서 저는 최근 이 프롬프트 엔지니어링의 상당 부분을 클로드에게 위임했습니다.
"이러한 상황과 맥락에 맞는 최적의 이미지 생성 프롬프트를 구조화해줘"라고 맡겨두고 해결하는 식으로 부담을 덜고 있습니다.

소스를 묶어 영상으로

최종 영상화 단계는 이렇게 준비된 소스들을 하나로 묶는 과정입니다.
앞서 만든 '배경 + 마스코트' 합성 이미지를 하나의 완전한 캔버스로 출력합니다.
그 이후 완성된 단일 이미지를 비디오 생성 기능을 지원하는 AI 툴에 투입합니다.
그록 같은 곳에 넣고 "이 이미지의 분위기를 살려서 카메라가 부드럽게 줌인되는 5초짜리 영상을 만들어줘"라고
요청하면 비디오 클립 생성 자체는 크게 어렵지 않게 뚝딱 완성됩니다.

컴퓨터에서 동영상이 생성되는 모습을 쳐다보는 남자 — 이미지: AI 생성

문제는 이 작업을 영상 한 편당,
혹은 매일 올리는 숏폼 분량에 맞춰 수십 번씩 '반복해서' 자동화 프로세스로 매끄럽게 굴려야 한다는 점입니다.
스크립트 작성, 이미지 생성, 비디오 변환, FFmpeg을 통한 오디오 합성까지 이어지는
파이프라인을 매끄럽게 연결하는 것은 여전히 많은 튜닝이 필요하네요.

검은 셔츠 입은 남자가 화면을 보며 미소 짓는 모습 — 이미지: AI 생성

여기까지가 현재 제가 치열하게 부딪히며 구축하고 있는 AI 비주얼 생성 파이프라인의 현주소입니다.
아직 완벽하다고 볼 수는 없지만,
매달 기술이 발전하는 속도를 보면 조만간 한도 제한이나 퀄리티 편차 문제도 완전히 해결될 날이 오지 않을까 싶습니다.
혹시 여러분은 이런 이미지 일관성 문제나 영상 변환 작업을 어떤 방식으로 자동화하여 해결하고 계시나요?
저보다 먼저 앞서나가고 계신 고수분들이 있다면 댓글이나 메시지로 좋은 팁 좀 공유해 주십시오.
집단지성의 힘이 절실한 요즘입니다.
AI 이미지 자동화, 아직 갈 길이 멉니다.

8) AI 이미지 자동화 파이프라인 구축기, 한계와 극복

AI 이미지 자동화, 어디까지 왔나

마스코트 고정과 배경 합성

한도 제한이라는 벽

소스를 묶어 영상으로

관련 글