Частина серії: AI vs живий менеджер: матриця задач і чесна економіка
Open-source LLM локально — чому це рідко виправдано для малого бізнесу
Llama, Mistral, Qwen — реальний розрахунок вартості локального LLM: GPU, електрика, час обслуговування. І випадки, коли це справді виправдано.
Гайди
Open-source LLM локально — чому це рідко виправдано для малого бізнесу
Відкриті моделі — Llama 3, Mistral, Qwen, Phi — реально хороші. Це не маркетинг: деякі з них на певних задачах конкурують з gpt-4o-mini. Ідея «поставити LLM на свій сервер і платити тільки за електрику» звучить логічно для бізнесу, який вже думає про довгострокові витрати.
Але є кілька пасток, про які не пишуть у статтях типу «як запустити Ollama за 15 хвилин». Розберемо чесно.
Що потрібно для запуску LLM локально
Почнемо з технічних вимог. Для генерації в реальному часі (< 3 секунди на відповідь) потрібно:
Невеликі моделі (7-8B параметрів, Llama 3 8B, Mistral 7B):
- GPU з 8+ ГБ VRAM (мінімум), комфортно — 12-16 ГБ
- NVIDIA RTX 3080 (10 ГБ): нова $700-900, б/в $400-600
- NVIDIA RTX 4070 Ti (12 ГБ): нова $800-1100
- Швидкість генерації: 15-30 токенів/сек — прийнятно
Середні моделі (13-14B параметрів, краща якість):
- 16-24 ГБ VRAM
- RTX 4090 (24 ГБ): нова $1800-2200
- Або дві карти з NVLink (нереалістично для SMB)
- Швидкість генерації: 8-15 токенів/сек
Великі моделі (70B+, рівень gpt-4o-mini за якістю):
- 48-80 ГБ VRAM — тільки серверне обладнання
- Мінімум: дві A100 80GB або чотири A6000 48GB
- Вартість: $20 000-80 000+
Висновок вже тут: щоб отримати якість, порівнянну з тим, що дає API за $0.15/M токенів — потрібне серйозне залізо.
Реальна вартість локального запуску
Розрахунок для найдешевшого варіанту — RTX 4070 Ti + Mistral 7B:
Одноразові витрати:
- GPU RTX 4070 Ti: ~$900 (б/в, ~36 000 ₴)
- Комп'ютер (якщо немає): $500-800 (20 000-32 000 ₴)
- Разом: $1 400-1 700 = 56 000-68 000 ₴
Щомісячні витрати:
- Електрика: GPU в повному навантаженні ~250-350 Вт. 24/7 × 350 Вт × 30 днів = 252 кВт⋅год/міс. За тарифом ~3.5 ₴/кВт⋅год = 882 ₴/міс
- Але бот не під навантаженням 24/7. При 500 розмовах на місяць × 30 сек генерації = 250 хвилин активного часу = ~4 години/міс. Реальна додаткова електрика: 4 год × 0.35 кВт = 1.4 кВт⋅год = 4.9 ₴/міс
Тут важливо: сервер під Ollama/vLLM зазвичай тримають запущеним постійно (щоб відповідати одразу, без cold start). Тому або платиш за idle-час GPU, або отримуєш cold start 10-30 секунд.
Часові витрати:
Засновник Leadmlyn. Будую AI-менеджерів для leisure-бізнесу в Україні.