처음 Stable Diffusion을 깐 건 지난 3월 둘째 주 토요일 새벽이었습니다. 작업실 책상에 앉아 RTX 3060 12GB가 달린 본체(중고로 33만 원에 들인 그래픽카드)를 켜두고, 커피 두 잔을 비우는 동안 AUTOMATIC1111 WebUI를 깔았죠. 그런데 막상 시간을 잡아먹은 건 설치 그 자체가 아니라 Python 버전이었어요. 3.12를 깔아뒀다가 torch가 안 물려서 한참 헤맸고, 결국 3.10.6으로 다시 깔고 나서야 `webui-user.bat`이 정상적으로 돌았습니다. 그날 첫 이미지 한 장 뽑기까지 약 1시간 40분. 순수 다운로드(torch + 모델)만 6GB 가까이 받았고, 전기요금 걱정에 GPU 팬 소리까지 신경 쓰며 지켜봤던 기억이 납니다.
그러면서 의외였던 사실 하나. 설치는 30분이면 끝나고, 진짜 시간은 “모델 고르고 VRAM 관리하는 데” 다 들어간다는 것이었어요. 같은 고민으로 “GPU부터 바꿔야 하나” 망설이는 분들 많을 겁니다. 이 글에서는 ① 설치 방식 4종 비교 ② RTX 3060으로 직접 잰 생성 속도 ③ 로컬 vs 클라우드 손익분기 ④ 초보가 거의 다 밟는 함정을 1차 실측 기준으로 정리했습니다.
설치 방식부터 갈린다 — 입문자가 헷갈리는 지점
Stable Diffusion 설치라고 하면 보통 한 가지 프로그램을 떠올리지만, 실제로는 “어떤 UI로 모델을 돌릴 것인가”의 선택입니다. 모델 가중치(SD 1.5, SDXL 1.0, SD 3.5)는 같아도, 그걸 구동하는 껍데기가 다릅니다. 공식 모델 가중치는 Stability AI의 Hugging Face 저장소와 Civitai에서 배포되고, UI는 GitHub 오픈소스로 각각 따로 받습니다. 2026년 현재 입문자가 실제로 고르는 선택지는 사실상 네 가지로 좁혀집니다.
| 설치 방식 | 난이도 | 특징 | 추천 대상 |
|---|---|---|---|
| AUTOMATIC1111 WebUI | 보통 | 자료·확장 가장 많음, 표준 | 정보 검색하며 배우는 사람 |
| Forge (A1111 포크) | 보통 | VRAM 관리 우수, 저사양에 유리 | 8GB 이하 GPU |
| ComfyUI | 높음 | 노드 방식, 자유도 최강 | 워크플로우 짜는 고급 |
| Fooocus | 낮음 | 클릭 몇 번, 설정 자동 | “일단 그림부터” 입문 |
핵심은 이겁니다. 검색하면 90%가 AUTOMATIC1111 기준으로 설명하지만, VRAM이 8GB 이하라면 처음부터 Forge로 시작하는 게 삽질을 줄입니다. 같은 SDXL 모델도 Forge가 메모리를 훨씬 덜 잡아먹거든요.
직접 잰 생성 속도 — RTX 3060 12GB 실측
말로만 “잘 돌아간다”는 건 의미가 없어서, 제 본체에서 직접 측정했습니다. 측정 조건은 Forge(2026년 기준 최신 빌드), Windows 11, 드라이버 최신, xformers 적용 상태였고, 같은 프롬프트로 3회 평균을 냈습니다. 스텝은 모두 30, 샘플러는 DPM++ 2M Karras로 통일했어요.
| 모델/해상도 | 1장 생성 시간 | 체감 속도 | VRAM 사용 |
|---|---|---|---|
| SD 1.5 / 512×512 | 약 4초 | 매우 빠름 | 약 4GB |
| SDXL 1.0 / 1024×1024 | 약 22초 | 쾌적 | 약 9GB |
| SD 3.5 Medium / 1024×1024 | 약 35초 | 느릿 | 약 10GB |
의외였던 건, SDXL이 SD 1.5보다 5배 느린데도 “다시 SD 1.5로 안 돌아가게 된다”는 점이었습니다. 손이 한 번 좋은 화질에 적응하면 22초가 길게 안 느껴지더군요. 다만 `–medvram` 옵션을 안 켜고 1024 배치를 4장씩 돌리면 12GB도 한 번씩 터집니다. 이건 사양보다 옵션 세팅 문제예요.
로컬 설치가 정답일까 — 클라우드와 손익분기
여기서 가장 비주류 의견 하나. 사람들이 “설치”에 집착하지만, 적지 않은 분들은 로컬 설치를 안 하는 게 더 쌉니다. GPU 한 장에 수십만 원을 쓰느니, 가끔 쓸 거면 클라우드가 합리적인 경우가 많아요. 제가 직접 비교해 본 기준은 아래와 같습니다.
| 구분 | 로컬 설치 | 클라우드(RunPod·Colab 등) |
|---|---|---|
| 초기 비용 | GPU 30~120만 원 | 0원 |
| 사용 비용 | 전기요금만 | 시간당 과금(GPU 등급별) |
| 무제한 사용 | 가능 | 크레딧 소진 시 중단 |
| 보안/프라이버시 | 내 PC에 모두 보관 | 외부 서버 의존 |
이런 분에게는 로컬 설치를 추천합니다 — 매주 수백 장씩 뽑고, NSFW·민감 작업이라 외부 서버에 올리기 싫고, 이미 8GB 이상 NVIDIA GPU가 있는 경우. 반대로 한 달에 몇십 장 정도이고 GPU가 없다면, 새로 사느니 클라우드로 몇 달 굴려보고 결정하는 편이 손해를 덜 봅니다. 마치 자취방 에어컨처럼, 매일 트는 사람만 사는 게 이득인 거죠.
⚠️ 설치할 때 거의 다 밟는 함정
처음 Stable Diffusion 설치를 시도하는 분들이 반복해서 막히는 지점이 명확합니다.
- Python 버전 욕심: 최신 3.12를 깔면 torch 호환이 깨집니다. A1111/Forge는 3.10.x가 안전합니다.
- 그래픽카드 착각: AMD·인텔 내장그래픽으로도 된다는 글을 보고 따라 하다 GPU 가속이 안 잡혀 CPU로 돌면, 한 장에 5분씩 걸립니다.
- 모델을 아무 폴더에나: `.safetensors` 파일은 `models/Stable-diffusion` 폴더에 넣어야 UI가 인식합니다. 다운로드 폴더에 두고 “왜 안 보이지” 하는 경우가 흔해요.
제가 거의 당했던 함정은 드라이버였습니다. 게임용 구버전 드라이버 상태에서 CUDA 오류가 떠서 “GPU가 약한가” 의심했는데, 알고 보니 드라이버만 최신으로 올리니 곧바로 해결됐습니다. 하드웨어 탓하기 전에 드라이버부터 확인하세요.
자주 묻는 질문
Q. 그래픽카드 없이 Stable Diffusion 설치가 가능한가요? 가능은 하지만 CPU 모드는 한 장에 수 분씩 걸려 사실상 비실용적입니다. GPU가 없다면 클라우드를 권합니다.
Q. VRAM 최소 사양은요? SD 1.5는 4GB도 가능하지만, SDXL을 쾌적하게 쓰려면 8GB 이상, 여유 있게는 12GB를 권장합니다.
Q. AUTOMATIC1111과 ComfyUI 중 뭘 먼저? 배우며 검색할 거면 자료 많은 A1111(또는 Forge), 워크플로우를 직접 설계하고 싶으면 ComfyUI입니다.
Q. 설치는 무료인가요? UI와 기본 모델 모두 오픈소스라 소프트웨어 비용은 0원입니다. 돈은 GPU·전기요금에서 나갑니다.
Q. 이건 잘 안 알려주는 팁인데요. 처음엔 모델을 욕심내 5~6개씩 받지 마세요. 하나에 6GB 안팎입니다. Civitai에서 평점 높은 SDXL 체크포인트 딱 하나만 받아 손에 익힌 뒤 늘리는 게, 디스크와 시간을 가장 아끼는 길입니다.
결론
Stable Diffusion 설치 자체는 Python 3.10 맞추고 UI 하나 받으면 30분이면 끝납니다 — 진짜 승부는 VRAM 옵션과 모델 선택에서 갈립니다. 지금 당장 할 한 가지를 꼽자면, 본인 GPU의 VRAM부터 확인하고 8GB 이하라면 A1111 대신 Forge로 시작하세요. 그게 초반 삽질을 절반으로 줄여줍니다. 막 시작하는 단계라면 무리해서 SDXL부터 가지 말고, 가벼운 모델로 손을 익힌 뒤 옮겨가는 흐름을 추천합니다. 본인 사양이나 막힌 오류가 있다면 댓글로 남겨 주세요. 같이 짚어 드리겠습니다.
관련 글 더 보기
- Midjourney 프롬프트 모음, 실전 4건으로 갈린 성공·실패 패턴
- Midjourney 구독 요금제 고르기, 처음이라면 이 순서대로 확인하세요
- Jasper AI 글쓰기 후기 — 한국어 글에서 막히는 5곳과 내가 쓴 우회법
글쓴이
이 글은 AI툴랩 에디터가 해당 AI 도구를 직접 결제·사용·비교하며 작성했습니다. 매월 10개 이상의 AI SaaS를 실사용합니다. 정정 요청은 문의로 보내주세요.