13) 영상 자동화 파이프라인, 두 달 만에 첫 영상이 나갔다

도구가 첫 출력을 냈다 — 첫 영상이 나갔다

https://youtu.be/42Dfq00VF7s?si=LUj_kbaTagb6oDO1

두 달 만에 완성한 영상 자동화 파이프라인

오늘 드디어
내가 두 달간 밤낮없이 빌드해 온 영상 자동화 파이프라인의 첫 결과물이 드디어 유튜브 세상에 올라갔다.
(첫 결과물은 아니지 사실대로 말하면 이전에 커썰이 있었으니…)

영상 자동화 파이프라인. 이게 두 달 동안 나를 붙잡고 있던 전부였다.

첫 영상의 주제는 최근 국내 증시를 뒤흔든 ‘SK하이닉스 -9.92% 급락 시황과 젠슨 황 방한’ 이슈다.
길이는 약 7분 7초이며, 가로 영상으로 제작되었다.
(이건 내가 알아낸 사실이지만 쇼츠 처럼 세로 영상으로 3분이상 넘어가게되면 롱폼으로 간주된다.)

검은 셔츠를 입은 남자가 책상 앞에서 스마트폰 화면을 — 이미지: AI 생성

두 달간 쌓아온 도구들

여기까지 오는 데 정말 많은 도구와 인프라를 쌓아왔다.
8편에서 비용이 51%를 찍는 것을 보고 모델 분산 배치를 결정했고,
9편에서는 이미지 자동화 파이프라인을 구축했다.
10편에서는 영상에 들어갈 캐릭터 에디터를 직접 만들었으며,
다가올 11편과 12편에서는 분산 한 달 후 데이터 검증과 슬라이드 시스템 6종 확장을 준비 중이다.
돌이켜보면 이 모든 도구와 시행착오들이 오늘!
이 영상 한 편을 완벽하게 뽑아내기 위한 필수 부품들이었다.
두 달 가까이 이렇다 할 결과물 없이 밑바닥 도구만 주구장창 쌓아오던 지루한 단계가 드디어 끝난 것이다.

검은 셔츠를 입은 남자가 복잡한 설계도가 그려진 모니터 — 이미지: AI 생성

15분 만에 도는 빌드 흐름

이번 첫 영상을 만들어낼 때의 실제 빌드 흐름은 다음과 같았다.
원고를 작성하면 publish-from-script.js 엔진이 텍스트를 분석해 슬라이드 스펙을 자동으로 생성한다.
이어서 Typecast API를 통해 보이스(TTS) 데이터를 다운로드하는데,

이때 스피커별로 미리 지정된 색상과 폰트 매핑 플러그인이 자동으로 작동한다.
그다음 디자인 템플릿 중 주제에 맞는 것을 선택하면 PNG 레이아웃과 mp4 비디오 소스가 자동으로 출력된다.
여기에 캐릭터 스튜디오에서 미리 추출해 둔 마스코트 인드로 진행자 컷을 올리고,
마지막으로 FFmpeg 스크립트를 실행하면 슬라이드, 마스코트, 자막, BGM이 단 한 번에 연결된다.
이렇게 완성된 최종본을 유튜브에 업로드하는 구조다.
(유튜브 업로드도 자동으로 하려했는데 이건 정말로 너무나 귀찮아서 일단 빼두었다)

검은 셔츠를 입은 남자가 키보드를 빠르게 두드리며 코딩 — 이미지: AI 생성

이 모든 파이프라인이 한 바퀴 돌아 최종 영상이 출력되기까지 걸린 전체 작업 시간은 놀랍게도
단 15분이었다.
원래 수작업으로 진행했다면 파워포인트로 슬라이드를 일일이 디자인하고,
보이스를 따로 녹음해서 타임라인에 맞추고,
프리미어나 캡컷 같은 편집 툴에서 자막을 한 땀 한 땀 박아야 했을 것이다.
최소 하루 꼬박 걸리던 중노동이 단 몇 번의 명령어로 단축된 셈이다.

출력은 15분, 수정은 2시간

물론 15분만에 생성되는건 맞긴하지만.
출력된 결과물을 수정하는데 2시간이 걸렷다.

tts랑 자막이 싱크가 맞지않는 문제
이미지가 의미없는 과자사진이 들어가는 문제
어제 있었던 일을 오늘 해야한다고 거짓말하는 클로드
반복된 작업을 싫어하니 하기싫다고 말하는 클로드..
(이건 최근에 알게된 사실이지만 AI들도 자기들이 일하기싫으면 할루시네이션이 심해진다.)

제일 큰 문제는 수정한 뒤 재생성을 해야하는데 또 똑같이 15분이 걸린다.
왜냐?
실수한 잘못된 곳을 수정하려면 0~41에 가운데 하나만 끼워넣으려면
결국 내 손이 들어가야하는데
손이 들어간다 = (캡컷으로 중간에 한두컷을 수동으로 넣고 발행하고 확인하는것이다)
내 손을 쓰기 싫으면 클로드에게 그냥 맡기는 수밖에없다.
맡긴다 = “야 이거 해”

처음 돌려본 명암

물론 첫 실행이었던 만큼 명암이 확실했다.
가장 잘 됐던 부분은 슬라이드 자동 생성과 자막 매핑이었다.
복잡한 반도체 용어나 주가 수치들이 오타 없이 한 번에 완벽한 비주얼로 표현되었고,
오디오 타이밍과 자막 씽크 부분은 인간이 손으로 다시 만질 필요가 전혀 없을 만큼 정교하게 맞아떨어졌다.

검은 셔츠를 입은 남자가 모니터 속 자막 레이아웃을 보 — 이미지: AI 생성

반면 아쉬운 점도 명확했다.
영상 중간에 나온 용어 설명 슬라이드는 배경 톤이 너무 어두워 전체적인 시각적 톤앤매너와 맞지 않아 수동으로 코드를 조금 손봐야 했다.(내가 아닌 클로드가)
또한, 특정 하이라이트 컷에서 마스코트 캐릭터의 위치가 자막 일부분을 살짝 가리는 레이어 오류가 발생했고,
‘HBM4′, ’10b5원’ 같은 전문 기술 및 법적 용어의 TTS 발음이 약간 어색하게 처리된 단어들이 있어 오디오 필터를 재구성하는 문제를 남겼다.

검은 셔츠를 입은 남자가 한 손으로 이마를 짚고 모니터 — 이미지: AI 생성

그럼에도 이번 첫 출력이 준 감회는 남다르다.
지난 두 달 동안 구체적인 영상 결과물 없이 백엔드 도구와 파이프라인만 붙잡고 있을 때는 솔직히 외롭고 불안했다.
‘이 코드가 진짜 움직여서 번듯한 영상이 되긴 할까?’라는 의심이 머릿속을 계속 맴돌았다.
하지만 오늘 내가 짠 시스템이 뱉어낸 첫 영상이 유튜브 채널 페이지에 그대로 박히고 재생되는 순간, 그 모든 의심과 피로가 눈 녹듯 사라졌다.

검은 셔츠를 입은 남자가 책상 위에 깔끔하게 정돈된 장 — 이미지: AI 생성

코드를 한 줄도 제대로 쓰지 못하는 내가 오직 AI에게 구조를 지시하고 협업하여 영상 자동 생성 시스템을 구축해 냈다.
그리고 그 시스템이 마침내 실제 대중 앞에 나갈 완성도 높은 콘텐츠를 안정적으로 출력해 냈다.
이게 2026년을 살아가는 솔로 제작자에게 정말로 가능한 일이라는 것을,
내 눈으로 직접 확인하고 나서야 온전히 실감이 났다.

검은 셔츠를 입은 남자가 두 팔을 넓게 벌려 파이팅 포 — 이미지: AI 생성

다음 한 달의 목표는 명확하다.
구축된 파이프라인을 풀가동해 주 3편 이상,
총 12편의 영상을 안정적으로 양산하는 궤도에 진입할 것이다.
그리고 이번 첫 영상의 조회수, 평균 체류 시간, 이탈률 등 유튜브 스튜디오의 실제 시청자 데이터를 기반으로
파이프라인의 레이아웃과 연출 방식을 정밀하게 튜닝해 나갈 예정이다.
도구는 준비 완료되었으니,
이제는 진짜 스케일업의 시간이다.
(그냥 혼자만의 생각인데 이게 가능할까 계속 의심이 된다.)

검은 셔츠를 입은 남자가 노트북을 닫고 창밖의 넓은 풍 — 이미지: AI 생성

영상 자동화 파이프라인. 두 달 만에 첫 영상이 나갔다. 이제 진짜 시작이다.