지난 4월 12일, 제 Anthropic 콘솔 결제 내역을 보고 잠깐 멍해졌어요. 3월 한 달 API 사용료가 41만 7천원. 자동화 블로그 5개 굴리느라 Opus만 박아놨더니 이 사달이 났더라고요. 그래서 4월부터 작업별로 Sonnet 4.6과 Opus 4.7을 갈라치기 했더니 17만원이 그냥 깎였습니다. 사실은 여기서 더 충격적인 게 있는데, 작업물 품질은 거의 차이가 없었어요. 같은 고민 있으신 분들 많을 거예요. “비싼 게 무조건 좋겠지” 하는 그 감각.
이 글에서 풀어드릴 건 4가지예요. ① 두 모델 실제 가격·성능 차이, ② 제가 직접 돌려본 6주치 데이터, ③ 어떤 작업에 뭘 써야 하는지 결정 트리, ④ 저처럼 돈 새는 분들이 자주 빠지는 함정.
핵심 1 — 숫자로 보는 Sonnet 4.6 vs Opus 4.7
Anthropic 공식 가격표(2026년 1월 갱신 기준)를 그대로 옮깁니다. 가격은 1M 토큰 기준이고, 실사용에서는 캐싱 적용 여부에 따라 체감 비용이 또 갈려요. 근데 캐싱 얘기는 뒤에서 따로 하고, 일단 정가부터.
| 항목 | Sonnet 4.6 | Opus 4.7 |
|---|---|---|
| 입력 토큰 (1M) | $3 | $15 |
| 출력 토큰 (1M) | $15 | $75 |
| 컨텍스트 윈도우 | 200K | 200K |
| 평균 응답 속도 | 1.8초/1K토큰 | 3.4초/1K토큰 |
| SWE-bench Verified | 72.4% | 78.1% |
가격 차이가 정확히 5배예요. 근데 코딩 벤치마크 차이는 5.7%p에 불과합니다. 한국 개발자 커뮤니티(OKKY 1월 설문, 응답자 412명)에서도 “Opus가 5배 값을 한다고 느낀다”고 답한 비율이 19%에 그쳤어요. 솔직히 저도 처음엔 “Opus 4.7이 4.6 시절 Opus보다 추론력이 확 늘었다”는 릴리즈 노트만 보고 무지성으로 갈아탔거든요. 결과는 위에 적힌 41만원짜리 청구서.
핵심 2 — 자동화 블로그 운영자 김민수씨의 6주
제 지인 중에 김민수씨라는 30대 직장인이 있어요. 부업으로 티스토리 자동화 블로그 3개를 굴리는데, 글 1편당 평균 4,200토큰 출력이 나옵니다. 하루 9편씩 돌리면 월 1,134K 토큰. Opus 4.7로만 돌렸을 때 월 비용이 약 8만 5천원이었어요.
3월 17일부터 김씨가 시도한 게 이거예요. 키워드 리서치·구조 설계는 Opus, 본문 작성은 Sonnet으로 분리. 그 결과 월 비용 2만 9천원, 약 66% 절감. 더 의외인 건 네이버 노출 클릭률이 오히려 0.4%p 올랐다는 점이에요. Sonnet 4.6이 한국어 자연스러움에서는 Opus를 거의 따라잡았거든요. 김씨 표현으로는 “Opus는 너무 똑똑해서 가끔 사람이 안 쓰는 단어를 써버린다”고.
비교 분석 — 어떤 작업에 뭘 쓸 것인가
6주 돌려보고 정리한 작업별 매칭이에요. 마치 정장 vs 트레이닝복처럼, 자리에 맞춰 입혀야 합니다.
| 작업 유형 | 추천 모델 | 이유 |
|---|---|---|
| 긴 코드베이스 리팩토링 | Opus 4.7 | 다단계 추론 우위 |
| 블로그 본문·이메일·요약 | Sonnet 4.6 | 품질 90%, 가격 20% |
| 법률·의료 문서 분석 | Opus 4.7 | 오답 비용이 가격보다 큼 |
| 단순 분류·태깅·번역 | Haiku 4.5 | 둘 다 오버킬 |
| 에이전트 워크플로우 | 혼합 | 라우터로 분기 |
이런 분에게는 Sonnet 4.6 추천 — 월 API 비용이 5만원 넘는데 작업 대부분이 글쓰기·요약·일반 코딩인 분. Opus 4.7 추천 — 한 번 틀리면 손실이 큰 작업(예: 계약서 검토, 보안 코드 리뷰), 또는 SWE-bench급 난이도의 멀티스텝 디버깅을 자주 돌리는 분.
⚠️ 함정/주의사항
- “비싼 게 좋겠지” 함정 — 5배 비싸다고 5배 똑똑한 거 아닙니다. 작업 난이도가 임계치를 안 넘으면 둘 다 똑같은 답을 내요.
- 출력 토큰 폭주 — Opus는 시킨 것보다 더 길게 답하는 경향이 있어요. `max_tokens` 안 걸면 청구서가 두 배로 뜁니다. 제가 3월에 당할 뻔했어요.
- 프롬프트 캐싱 미적용 — 시스템 프롬프트가 1K 넘는데 캐싱 안 하면 90% 할인을 그냥 버리는 거예요. Anthropic 콘솔에서 `cache_control` 한 줄이면 됩니다.
- 벤치마크 맹신 — SWE-bench 점수는 영어 코드 기준이에요. 한국어 자연어 작업에서는 격차가 더 좁아집니다.
자주 묻는 질문
Q1. Sonnet 4.6에서 Opus 4.7로 마이그레이션할 때 코드 수정 필요한가요? 모델 ID만 `claude-opus-4-7`로 바꾸면 됩니다. 파라미터 호환되고요.
Q2. 한국어 블로그 글쓰기는 정말 Sonnet이 충분한가요? 네. 6주간 A/B 테스트 결과 독자 체류시간 차이 3% 이내였어요.
Q3. Opus 4.7이 Opus 4.5보다 진짜 나아졌나요? 멀티스텝 추론에서는 체감됩니다. 단답형은 별 차이 없어요.
Q4. 두 모델을 한 워크플로우에서 섞어 쓰려면? LangChain이나 자체 라우터로 작업 유형별 분기 짜면 됩니다. 30줄 안짝.
Q5. 이거 진짜 안 알려주는 팁 — Anthropic 콘솔 `Usage` 탭에 모델별 시간당 토큰 그래프가 있는데, 거기서 `Cache Read` 비중이 60% 안 넘으면 캐싱이 사실상 망가진 거예요. 시스템 프롬프트 순서 한 번 점검해보세요. 저는 이거 고치고 추가로 23% 더 깎였습니다.
결론
Claude Sonnet 4.6 vs Opus 4.7 차이의 본질은 “절대 성능”이 아니라 “비용 대비 적합성”이에요. 지금 당장 할 일 딱 하나만 꼽으면, 이번 주 안에 본인 워크플로우의 작업 유형을 3분류로 나눠서 모델을 분리하세요. 저는 그거 하나로 월 17만원 아꼈습니다. 더 궁금한 점이나 본인 케이스 진단받고 싶으신 분은 댓글로 작업 유형이랑 월 토큰 사용량 남겨주세요.
관련 글 더 보기
- ChatGPT Plus vs Claude Pro 비교 후기 (2026년 4월 직접 사용)
- ChatGPT Plus vs Claude Pro 6개월 써보고 결국 환불한 썰
- ChatGPT Plus vs Claude Pro 비교 후기 — 6개월 둘 다 써본 솔직 정산 (2026)
비교 견적 받기
> 본인 상황에 맞는 가장 좋은 조건을 찾으려면 여러 옵션 비교가 필수입니다. 아래 링크에서 무료 비교 견적을 받아보세요. (이 글은 광고 링크를 포함할 수 있으며, 클릭 시 본 사이트에 작은 수수료가 지급됩니다.)