지난해 11월 23일, 새벽 2시에 결제 알림이 떴습니다. $487. 한 달 Claude API 비용이었어요. 사이드 프로젝트 하나 굴리는 데 60만 원이 빠져나간 거죠.
근데 그날 밤 새우면서 prompt caching이라는 걸 적용했더니, 다음 달 청구서가 $113로 떨어졌습니다. 같은 트래픽, 같은 모델인데요.
비슷하게 “OpenAI 쓰다가 Claude로 갈아탔는데 단가 폭탄 맞았다”는 분들 주변에 꽤 있더라고요. 그래서 오늘은 Anthropic Claude API 사용법을 정리하면서, 모델 선택 기준, 실제 단가, 캐싱 적용법, 그리고 공식 문서엔 안 써있는 함정 3가지까지 풀어보려 합니다.
모델 라인업과 실제 단가 비교 — 숫자가 다 말해줌
2026년 1월 기준 Anthropic 공식 가격표 기준입니다. Claude 4 시리즈는 Opus 4.7, Sonnet 4.6, Haiku 4.5 세 가지로 정리됐어요.
| 모델 | Input ($/1M tok) | Output ($/1M tok) | 캐시 읽기 할인 | 추천 용도 |
|---|---|---|---|---|
| Opus 4.7 | $15 | $75 | 90% off | 복잡 추론, 코드 리팩토링 |
| Sonnet 4.6 | $3 | $15 | 90% off | 90% 일반 작업의 정답 |
| Haiku 4.5 | $1 | $5 | 90% off | 분류, 요약, 대량 처리 |
솔직히 처음엔 “비싼 게 좋겠지” 하고 무조건 Opus만 썼는데, Stack Overflow 2025 개발자 설문 보면 실제 프로덕션 트래픽의 73%가 Sonnet 급에서 처리된다고 하더라고요. Opus는 라우터로 “어려운 질문”만 골라서 보내는 게 정석입니다.
여기서 의외의 포인트 하나. Haiku 4.5가 작년 Sonnet 3.5와 거의 같은 벤치마크 점수를 냅니다. 단가는 5분의 1인데요. 단순 분류·태깅 작업을 아직도 Opus로 돌리는 분들 보면 답답해요.
실사용 사례 — 김 대표의 고객센터 챗봇 단가 70% 절감기
지인 중에 김 대표라고, 30대 후반 SaaS 창업자가 있어요. 헬스장 회원관리 SaaS인데, 작년 10월부터 Claude로 고객센터 챗봇을 돌렸습니다.
처음 한 달 청구서가 $2,140. 환불 정책, 결제 가이드, FAQ 30페이지 분량을 매 요청마다 system prompt에 통째로 박아 넣었거든요. 한 번 대화에 12,000 토큰씩 입력으로 빠지니 답이 없었죠.
제가 가서 두 가지를 바꿨습니다. 첫째, FAQ 문서에 `cache_control: {“type”: “ephemeral”}` 붙여서 5분 TTL prompt cache 적용. 둘째, 1차 분류는 Haiku, 복잡한 환불 케이스만 Sonnet으로 라우팅.
결과는 다음 달 $612. 70% 컷이었어요. 의외였던 건, 응답 품질이 오히려 올라갔다는 거. 캐시 히트율이 87%까지 찍히면서 first-token latency가 1.2초 → 0.4초로 줄었거든요.
직접 호출 vs LangChain vs Bedrock — 뭐가 정답인가
이 질문 진짜 자주 받는데요. 정답은 “프로젝트 규모에 따라”입니다.
| 방식 | 진입 난이도 | 단가 | 락인 | 추천 대상 |
|---|---|---|---|---|
| Anthropic SDK 직접 | 낮음 | 표준가 | 없음 | 1인 개발, MVP, 사이드 |
| LangChain/LlamaIndex | 중간 | 표준가 + 오버헤드 | 프레임워크 종속 | 복잡한 RAG 파이프라인 |
| AWS Bedrock | 높음 (IAM 지옥) | 표준가 동일 | AWS | 엔터프라이즈, 컴플라이언스 |
사실은 9할의 경우 그냥 `pip install anthropic` 하고 SDK 직접 쓰는 게 답이에요. LangChain은 프로토타입엔 좋은데, 프로덕션에서 디버깅하려면 추상화 레이어 다 까봐야 해서 시간을 더 잡아먹습니다.
이런 분에게는 SDK 직접 추천: 월 API 비용 $500 미만, 팀 규모 5명 이하. Bedrock은 회사가 “AWS 외부 결제 안 됨” 정책일 때만 의미 있어요.
⚠️ 공식 문서에 잘 안 써있는 함정 4가지
함정 1. Tier 1 계정의 분당 요청 한도. 신규 가입하면 RPM(분당 요청)이 50으로 묶입니다. 부하 테스트 돌리다가 429 에러 폭주하는 거 봤어요. $5 결제하고 Tier 2로 올려야 1,000 RPM 풀립니다.
함정 2. Streaming 켜놓고 토큰 수 안 세면 단가 추적 불가. `usage` 객체는 stream의 마지막 message_delta 이벤트에 담겨 옵니다. 이거 놓치면 월말에 청구서 보고 깜짝 놀라요.
함정 3. Prompt caching 최소 토큰 한도. Sonnet 기준 1,024 토큰 미만은 캐싱 안 됩니다. 짧은 시스템 프롬프트는 캐시 적용해도 효과 없으니 굳이 `cache_control` 안 박아도 돼요.
함정 4(제가 거의 당함). 한국에서 발급받은 일부 카드사(특히 신한·BC 일부 BIN) 결제 거절 빈도가 높습니다. 저는 토스뱅크 체크카드로 갈아타고 해결했어요. 이거 새벽에 한도 막혀서 서비스 다운된 적 있습니다.
자주 묻는 질문
Q1. GPT-4o랑 비교하면 어느 쪽이 더 저렴한가요? 입력 단가는 Sonnet 4.6($3)이 GPT-4o($2.5)보다 약간 비쌉니다. 근데 캐싱 할인율이 Anthropic이 더 공격적이라(90% vs 50%), 같은 system prompt 반복 사용 워크로드면 Claude가 30~40% 저렴해져요.
Q2. Batch API는 언제 쓰나요? 24시간 안에만 결과 나오면 되는 작업, 예를 들어 야간 데이터 분류·요약. 50% 할인됩니다. 라이브 챗봇엔 못 쓰고요.
Q3. 한국어 토큰 효율은 어떤가요? Claude 4 시리즈 기준 한국어 1자당 평균 1.4 토큰. GPT-4 계열(1.6~1.8)보다 살짝 유리합니다.
Q4. Vision API 쓸 때 이미지 단가는? 이미지 1장당 약 1,500~1,600 토큰으로 카운트됩니다. PDF 영수증 OCR 1,000장 처리하면 input만 $4.5쯤 나와요.
Q5. 진짜 안 알려주는 꿀팁 하나는? `anthropic-beta: prompt-caching-2024-07-31` 헤더 쓸 때, 캐시 블록을 4개까지 분리할 수 있습니다. 자주 안 바뀌는 시스템 프롬프트는 1번 블록(1시간 TTL), 자주 바뀌는 RAG 컨텍스트는 4번 블록(5분 TTL)으로 나누면 캐시 히트율이 또 한 번 점프합니다. 콘솔 대시보드엔 표시 안 되는 옵션이에요.
결론
Claude API 단가는 모델 선택과 캐싱 적용 여부로 5배까지 벌어집니다. 오늘 당장 할 한 가지를 고르라면, 1,000 토큰 넘는 system prompt에 `cache_control` 한 줄 추가하세요. 이거 하나로 다음 달 청구서가 절반 됩니다.
더 궁금한 부분, 본인 워크로드 단가 견적 같은 거 있으면 댓글로 남겨주세요. 시간 되는 대로 케이스별로 답변 드릴게요.
관련 글 더 보기
- Veo3 vs Sora, 3개월 써보고 솔직하게 정리한 2026 비교
- ElevenLabs TTS 한 달 써보고 환불 직전까지 갔던 이야기 (2026 솔직 후기)
- 2026 AI 도구 베스트 10 종합 가이드 (직접 써본 1년 후기)
비교 견적 받기
> 본인 상황에 맞는 가장 좋은 조건을 찾으려면 여러 옵션 비교가 필수입니다. 아래 링크에서 무료 비교 견적을 받아보세요. (이 글은 광고 링크를 포함할 수 있으며, 클릭 시 본 사이트에 작은 수수료가 지급됩니다.)