한글 조합 중 자막이 한 프레임 늦거나 무음 재생에서 단어가 빠지는 일은 사소해 보이지만, 실제로는 시청자가 영상을 신뢰할지 결정하는 지점입니다.
한글 자막 조합 중 cue 가 한 프레임 늦거나, 모바일 무음 재생에서 자막이 빠지거나, YouTube Shorts 에 업로드된 영상의 자막 폰트가 다른 글꼴로 바뀌어 있는 — 이 세 가지는 사소해 보이지만 시청자가 영상을 끝까지 볼지 결정하는 지점입니다.
LinkedIn 의 모바일 피드 무음 재생 비율은 70% 이상입니다. 자막이 0.1초 늦거나 폰트가 바뀌면 후크 첫 3초가 즉시 무너집니다. 보임이 자막 파이프라인에 가장 많은 엔지니어링 시간을 쓰는 이유입니다.
보임의 자막 파이프라인은 음성 합성과 자막 텍스트를 분리해서 만들지 않습니다. 같은 영상 브리프 의 비트가 음성과 자막 cue 를 동시에 생성합니다. 음성 모델의 출력 타임스탬프가 그대로 자막 cue 의 시작·종료 시각으로 매핑되므로 drift 가 0 입니다.
내부 토큰 구조는 다음과 같습니다.
Beat #03 (8.000s ~ 15.000s)
├─ voice_synthesis
│ ├─ text: "공지 메일, 제품 내 배너, 도움말 문서, 데모 페이지에서..."
│ ├─ start_ts: 8.000
│ └─ end_ts: 15.000
└─ caption_cue
├─ text: "채널별 반응을 기능 단위로 연결"
├─ start_ts: 8.000 # same as voice
└─ end_ts: 15.000 # same as voice
음성과 자막이 다른 시스템에서 따로 만들어지면, 두 시스템 사이에 인코딩 차·반올림 차·언어별 syllable 길이 차로 drift 가 생깁니다. 같은 토큰에서 같은 타임스탬프를 쓰면 drift 자체가 존재할 수 없습니다.
결과적으로 30초 explainer 12편 누적 측정에서 자막 sync 오차 30ms 초과 발견 0건입니다.
브랜드 키트에 등록한 자막 스타일은 SRT · VTT · burned-in MP4 출력 시 같은 cue 데이터를 사용합니다. 채널이 SRT 를 거부하거나, 모바일 클라이언트가 VTT 만 지원하거나, 무음 재생을 위해 burned-in 이 필요한 경우 — 모두 같은 cue 에서 나옵니다.
| 출력 형식 | 사용 채널 | 자막 스타일 적용 | |---|---|---| | SRT (외부 자막) | YouTube · Vimeo (수동 임베드) | 채널 기본 폰트 사용 | | VTT (웹 임베드) | 랜딩 페이지 자체 임베드 | Brand Kit 폰트 (웹폰트 임베드) | | burned-in MP4 | Shorts · Reels · LinkedIn 모바일 | Brand Kit 폰트 그대로 | | burned-in (이메일) | 이메일 동봉 영상 | Brand Kit 폰트, 라이트 모드 |
자막 위치·외곽선·폰트 굵기는 한 번 등록 후 모든 출력에 동일하게 적용됩니다. Curea 의 경우 9개 제품 Brand Voice Kit 9개가 각자 다른 자막 스타일을 가지지만, 한 제품 안에서는 SRT 든 burned-in 이든 같은 폰트로 떨어집니다.
LinkedIn · X · Instagram 피드의 70% 가 무음 재생됩니다. 보임은 모든 영상 묶음의 short 출력에 burned-in 자막을 기본 포함합니다. 자막이 없으면 후크 3초가 무너집니다.
무음 재생용 자막은 일반 자막보다 다음 두 가지가 다릅니다.
caption.bold_for_muted 옵션)샘플 무음 재생 burn-in 자막은 다음과 같이 출력됩니다.
0:00–0:03 출시 후 반응, 아직 감으로 보나요?
0:03–0:08 조회·클릭·활성화·이탈
0:08–0:12 한 화면에서 연결
0:12–0:15 샘플 대시보드 보기 →
자막은 시청자 70% 가 무음으로 보고, 시청자 일부는 청각 보조 도구로 듣습니다. 보임의 자막 출력은 WCAG 2.1 AA 기준을 충족하도록 다음을 자동 처리합니다.
랜딩 페이지 임베드는 muted autoplay 가 기본이므로, 자막이 메시지의 100% 입니다. 출시 직전 점검 단계에서 자막 대비·외곽선·줄 수가 자동 검사되며, 한 항목이라도 미달이면 배포가 멈춥니다.
영상의 신뢰는 큰 비주얼이 아니라 사소한 지점에서 쌓입니다. 자막이 한 프레임 늦거나 폰트가 한 종류 다른 경우, 시청자는 "이 회사는 영상도 대충 만드는구나" 라고 인식합니다. LiveWith 가 출시 1주차 완주율을 38%에서 61%로 끌어올린 배경에는, 자막 sync drift 0 와 모든 short 의 burned-in 자막 기본 적용이 있습니다. 영상이 잘 만들어졌다는 인식은 첫 3초에 결정되며, 그 3초는 자막과 폰트의 정합에서 시작합니다.
30초 안에 후크·해결·증거·데모·CTA 를 끊김 없이 전달하는 5비트 구조와, SRT 한 블록으로 떨어지는 실전 예시입니다. 보임은 이 템플릿을 기본 비트 구조로 둡니다.
Curea 의 PMM 박서연 1명이 보임·마침·익힘·팔림·지킴 등 9 SaaS 의 explainer · short · 랜딩 임베드를 동시에 운영합니다. 11일 → 1.4일, 외주 ₩4.8M → ₩280k 의 분기 데이터를 어떻게 운영해서 만들었는지 — 실제 워크플로를 정직하게 풀어봅니다.
한 source 영상이 16:9 long, 9:16 short, 1:1 sales 세 채널에 발행될 때 — 길이 · Safe Title Area · 자막 위치 · 썸네일 룰이 모두 다릅니다. 2026 채널 정책 기준 베스트 프랙티스를 한 표에 담았습니다.