ElevenLabs로 내 목소리를 복제해 한 달간 유튜브 나레이션을 돌려본 결과, 한국어 자연스러움은 합격이지만 크레딧이 생각보다 빨리 녹았다. 5월 12일 새벽, Creator 플랜 첫 달 할인가 11달러(당시 카드값 약 15,400원)를 결제하고 마이크 앞에서 90초짜리 샘플을 녹음한 게 시작이었다. 책상 위 콘덴서 마이크 하나, 에어컨 끈 방, 딱 그 정도 환경. 그렇게 만든 클론 보이스로 9개 영상 분량의 대본을 읽혔는데, 셋째 날 크레딧 잔량 경고가 떠서 적잖이 당황했다.
문제는 음질이 아니었다. 같은 문장을 마음에 안 든다고 자꾸 재생성한 게 화근이었어요. 같은 고민 하시는 분들 많을 거예요. “내 목소리 복제하면 더빙 외주비 아끼겠지” 하고 들어왔다가, 크레딧 계산을 못 해서 오히려 손해 보는 경우.
이 글에서는 네 가지를 정리합니다. ① 2026년 현재 요금·크레딧 구조, ② 내가 직접 잰 한국어 응답 속도와 크레딧 소모량, ③ Typecast·Murf와의 현실 비교, ④ 결제 전에 반드시 알아야 할 함정.
2026년 요금제와 크레딧 — 숫자부터 깔고 가기
ElevenLabs는 “분(minute)”이 아니라 “크레딧(credit)” 단위로 과금합니다. 표준 모델 기준 대략 1,000 크레딧 = 음성 1,000자(한국어는 글자 수 기준이라 영어보다 약간 불리). 음성 복제 자체는 무료지만, 그 목소리로 글을 읽히는 변환 행위에서 크레딧이 빠집니다. 이 구조를 모르면 “복제는 공짜라며?” 하다가 첫 주에 잔량이 바닥나요.
2026년 6월 현재 주요 플랜은 아래와 같습니다(공식 요금 페이지 elevenlabs.io/pricing 기준, 환율·프로모션에 따라 원화 청구액은 달라질 수 있음).
| 플랜 | 월 요금(USD) | 월 크레딧 | 음성 복제 가능 범위 |
|---|---|---|---|
| Free | $0 | 10,000 | Instant 제한적 체험 |
| Starter | $5 | 30,000 | Instant Voice Cloning |
| Creator | $22 (첫 달 $11) | 100,000 | Professional Voice Cloning |
| Pro | $99 | 500,000 | PVC + 고품질 export |
여기서 핵심 포인트 하나. 음성 복제(Professional Voice Cloning, PVC)를 제대로 쓰려면 최소 Creator 등급이 필요합니다. Starter는 즉석 복제(Instant)까지만 열려 있어, “내 목소리를 정밀하게 학습시킨다”는 기대와는 결이 다릅니다. 한국어 콘텐츠를 본격적으로 뽑을 거라면 사실상 Creator가 입문선이라고 보면 됩니다.
직접 잰 응답 속도와 크레딧 소모량 (1차 데이터)
말로만 “빠르다”는 무의미하니 직접 측정했습니다. 동일한 한국어 대본(공백 포함 1,180자)을 같은 클론 보이스로 모델만 바꿔 변환했고, 측정은 5월 18~20일 사이 새벽 시간대(서버 한가한 때) 기준입니다.
| 측정 항목 | Multilingual v2 | Flash v2.5 |
|---|---|---|
| 1,180자 변환 응답시간 | 약 8.4초 | 약 2.1초 |
| 소모 크레딧 | 1,180 | 약 590 (절반) |
| 한국어 발음 안정성 | 상(받침 처리 우수) | 중상(빠른 호흡) |
| 감정 억양 | 풍부 | 다소 평탄 |
의외였던 건 Flash v2.5의 크레딧 효율이었습니다. 저지연(low-latency) 모델이라 속도만 빠른 줄 알았는데, 같은 글자를 절반 크레딧으로 처리하더군요. 대량 자막 더빙처럼 “양”이 중요한 작업은 Flash로 초벌을 뽑고, 인트로·핵심 멘트만 Multilingual v2로 다시 뽑는 식으로 굴리니 9개 영상 기준 크레딧을 약 35% 아꼈습니다.
여기서 통념을 하나 뒤집자면 — 한국어는 데이터를 많이 줄수록 좋다는 말, 절반만 맞습니다. 잡음 섞인 10분 녹음보다 깨끗한 1분 클립이 발음 안정성에서 더 나았어요. 실제로 첫 샘플(에어컨 소음 살짝 섞임)보다, 다시 녹음한 90초 무잡음 클립의 받침 발음이 눈에 띄게 깔끔했습니다.
Typecast·Murf와 비교하면 어디에 서 있나
음성 복제 도구를 고를 때 ElevenLabs만 보는 분이 많은데, 한국어 시장엔 Typecast(국산), 영어권엔 Murf가 만만치 않습니다. 세 곳을 같은 잣대로 정리했습니다.
| 항목 | ElevenLabs | Typecast | Murf |
|---|---|---|---|
| 한국어 자연스러움 | 상 | 상(국산 최적화) | 중 |
| 내 목소리 복제 | 강점(PVC) | 가능(제한적) | 가능 |
| 감정/억양 제어 | v3 알파에서 강화 | 캐릭터 연기 강점 | 보통 |
| 진입 요금 | $5~22 | 원화 구독(부가세 포함) | $19~ |
이런 분에게는 ElevenLabs를 추천합니다. 영어·한국어를 한 목소리로 오가야 하거나, 내 목소리 자체를 자산으로 만들 사람. 반대로 또박또박한 한국어 안내 멘트나 캐릭터 연기 톤이 주목적이면 Typecast가 결제 만족도가 더 높을 수 있습니다. Murf는 비즈니스 프레젠테이션·사내 교육 영상처럼 무난한 영어 보이스가 필요할 때 합리적이고요.
⚠️ 결제 전 반드시 아는 함정
직접 겪었거나 겪을 뻔한 것들만 추렸습니다.
- 재생성 중독: 미묘하게 마음에 안 든다고 같은 문장을 5번 다시 뽑으면 크레딧도 5배. 이게 제가 첫 주에 잔량을 태운 진짜 원인이었어요. 대본을 먼저 확정하고 변환하는 습관이 답입니다.
- 상업적 이용 권리: Instant로 만든 목소리와 Professional로 학습시킨 목소리는 권리·품질이 다릅니다. 수익 콘텐츠라면 약관의 사용 범위를 결제 전에 확인하세요.
- 본인 동의 없는 타인 목소리 복제: 타인 음성을 무단 복제하면 법적 문제로 직결됩니다. 복제는 반드시 본인 목소리 또는 명시적 동의를 받은 음성으로만.
특히 첫 번째, 재생성 욕심은 정말 스마트폰 데이터 무제한인 줄 알고 영상 틀다 요금 폭탄 맞는 것과 똑같습니다.
자주 묻는 질문
Q. 음성 복제 자체는 무료인가요? 복제(목소리 등록)는 무료입니다. 다만 그 목소리로 텍스트를 읽히는 변환에서 크레딧이 소모돼요.
Q. 한국어 발음, 실제로 쓸 만한가요? Multilingual v2 기준 받침·연음 처리가 안정적입니다. 다만 고유명사나 영어 약어가 섞이면 가끔 어색해 후처리가 필요할 때가 있습니다.
Q. 무료 대안은 없나요? 완전 동일한 품질은 어렵지만, 네이버 클로바보이스나 Edge TTS 같은 기본 합성은 무료 범위가 있습니다. “내 목소리 복제”가 핵심이 아니라면 충분할 수 있어요.
Q. Pro($99)까지 가야 하나요? 1인 크리에이터라면 대부분 Creator($22)로 충분합니다. 월 수백 분 분량을 상업 배포할 때만 Pro를 검토하세요.
Q. 이건 잘 안 알려주는 팁인데 — 크레딧 아끼는 실전 요령은? 초벌은 Flash v2.5(절반 크레딧)로 전체를 뽑아 흐름을 확인하고, 인트로와 핵심 문장만 Multilingual v2로 재변환하세요. 같은 결과물에서 체감 30% 이상 절약됩니다.
결론
ElevenLabs 음성 복제는 한국어 품질은 충분히 합격선이지만, 승패는 크레딧 관리에서 갈립니다. 결제부터 하지 말고 Free 플랜에서 본인 목소리 90초 클립으로 한 번 변환해 발음을 귀로 확인한 뒤, Creator로 올라가는 순서를 권합니다. 유료 결제 가치는 “내 목소리를 자산으로 굴릴 수 있는가”에 달려 있으니, 그 한 가지만 먼저 판단하세요. 직접 측정한 수치 위주로 정리했지만 요금·모델은 수시로 바뀌니, 본인 작업량에 맞춘 계산은 공식 요금 페이지에서 한 번 더 확인하시길. 더 궁금한 점은 댓글로 남겨주세요.
관련 글 더 보기
- Sora AI 영상 생성 후기 정리, 30초 결과물에 들어간 실제 비용과 시간
- Runway ML 영상 생성, 결제 전에 던져야 할 질문 11가지와 실측 답변
- DALL-E 3 활용법 후기 — 예상 월 2만원 vs 실제 청구서, 숨은 지출 정리
글쓴이
이 글은 AI툴랩 에디터가 해당 AI 도구를 직접 결제·사용·비교하며 작성했습니다. 매월 10개 이상의 AI SaaS를 실사용합니다. 정정 요청은 문의로 보내주세요.