Частина серії: AI vs живий менеджер: матриця задач і чесна економіка
Open-source LLM локально — чому це рідко виправдано для малого бізнесу
Llama, Mistral, Qwen — реальний розрахунок вартості локального LLM: GPU, електрика, час обслуговування. І випадки, коли це справді виправдано.
Гайди
Open-source LLM локально — чому це рідко виправдано для малого бізнесу
Відкриті моделі — Llama 3, Mistral, Qwen, Phi — реально хороші. Це не маркетинг: деякі з них на певних задачах конкурують з gpt-4o-mini. Ідея «поставити LLM на свій сервер і платити тільки за електрику» звучить логічно для бізнесу, який вже думає про довгострокові витрати.
Але є кілька пасток, про які не пишуть у статтях типу «як запустити Ollama за 15 хвилин». Розберемо чесно.
Що потрібно для запуску LLM локально
Почнемо з технічних вимог. Для генерації в реальному часі (< 3 секунди на відповідь) потрібно:
Невеликі моделі (7-8B параметрів, Llama 3 8B, Mistral 7B):
- GPU з 8+ ГБ VRAM (мінімум), комфортно — 12-16 ГБ
- NVIDIA RTX 3080 (10 ГБ): нова $700-900, б/в $400-600
- NVIDIA RTX 4070 Ti (12 ГБ): нова $800-1100
- Швидкість генерації: 15-30 токенів/сек — прийнятно
Середні моделі (13-14B параметрів, краща якість):
- 16-24 ГБ VRAM
- RTX 4090 (24 ГБ): нова $1800-2200
- Або дві карти з NVLink (нереалістично для SMB)
- Швидкість генерації: 8-15 токенів/сек
Великі моделі (70B+, рівень gpt-4o-mini за якістю):
- 48-80 ГБ VRAM — тільки серверне обладнання
- Мінімум: дві A100 80GB або чотири A6000 48GB
- Вартість: $20 000-80 000+
Висновок вже тут: щоб отримати якість, порівнянну з тим, що дає API за $0.15/M токенів — потрібне серйозне залізо.
Реальна вартість локального запуску
Розрахунок для найдешевшого варіанту — RTX 4070 Ti + Mistral 7B:
Одноразові витрати:
- GPU RTX 4070 Ti: ~$900 (б/в, ~36 000 ₴)
- Комп'ютер (якщо немає): $500-800 (20 000-32 000 ₴)
- Разом: $1 400-1 700 = 56 000-68 000 ₴
Щомісячні витрати:
- Електрика: GPU в повному навантаженні ~250-350 Вт. 24/7 × 350 Вт × 30 днів = 252 кВт⋅год/міс. За тарифом ~3.5 ₴/кВт⋅год = 882 ₴/міс
- Але бот не під навантаженням 24/7. При 500 розмовах на місяць × 30 сек генерації = 250 хвилин активного часу = ~4 години/міс. Реальна додаткова електрика: 4 год × 0.35 кВт = 1.4 кВт⋅год = 4.9 ₴/міс
Тут важливо: сервер під Ollama/vLLM зазвичай тримають запущеним постійно (щоб відповідати одразу, без cold start). Тому або платиш за idle-час GPU, або отримуєш cold start 10-30 секунд.
Часові витрати:
- Початкове налаштування (Ollama/LM Studio + API wrapper + Telegram інтеграція): 20-60 годин
- Оновлення моделі (нова версія вийшла): 2-4 години кожні 1-3 місяці
- Дебаггінг інцидентів (VRAM OOM, зависання, деградація якості): непередбачувано, від 1 до 10+ годин
- Моніторинг uptime і відновлення: ще більше часу
При оцінці власного часу в 200 ₴/год: навіть 5 годин на місяць підтримки = 1 000 ₴/міс прихованих витрат.
Проблема 1: latency
GPT-4o-mini відповідає за 1-3 секунди навіть при великому промпті. Локальна 7B-модель на RTX 4070 Ti генерує зі швидкістю 20-30 токенів/сек. Відповідь у 150 токенів = 5-7.5 секунд.
Для Telegram-бота 7 секунд — це відчутна затримка. Клієнт бачить «typing...» 7 секунд і думає, що щось пішло не так.
На 13B-моделі (краща якість) — 10-15 секунд. На 70B — хвилина і більше без серверного GPU.
Не хочеш цього всього налаштовувати руками?
Leadmlyn робить це за тебе — від KB до бронювань. 14 днів trial за $0.99.
СпробуватиПроблема 2: fine-tuning і якість для Ukrainian
Більшість відкритих моделей тренована переважно на англомовних даних. Ukrainian — є, але в меншому обсязі. Для leisure-бізнесу це проявляється в:
- Більш шаблонних і менш природних відповідях
- Плутанині з граматичним родом і відмінюванням
- Гіршій роботі з нестандартними формулюваннями
Fine-tuning для покращення якості на Ukrainian — це окрема задача з окремою вартістю: потрібні дані, GPU-час, ML-компетенція.
Проблема 3: відповідальність за uptime
Cloud API (OpenAI, Anthropic) гарантують 99.9% uptime. Ваш локальний сервер — ваша відповідальність. У разі відключення світла (що актуально для України), зависання системи, OOM-kill процесу — бот мовчить.
Для leisure-бізнесу, де клієнт пише у вечірній час (18:00-22:00), а власник вже не на роботі — це ризик реальних пропущених бронювань.
Коли self-hosted LLM реально виправданий
Є кейси, де він має сенс. Чесно:
Обсяг, що перевищує $500/міс на API. Якщо бізнес робить мільйони токенів на місяць (великі мережі, платформи) — breakeven з власним залізом настає. Для SMB з 500 розмовами це ~$2.5/міс токенів. Breakeven з $900 GPU — 360 місяців. Не виправдано.
Регуляторні вимоги. Медичні або юридичні дані, які не можна відправляти на зовнішні API. Для leisure-бізнесу не актуально.
Повна кастомізація і privacy. Якщо бізнес-дані дуже чутливі і є власна ML-команда. Не типово для малого leisure-бізнесу.
Навчально-дослідницькі цілі. Якщо ти технічний ентузіаст і хочеш розбиратись в LLM — self-hosted чудово підходить для цього. Але не для production-бота.
Hybrid підхід: cloud API з вибором моделі
Є більш прагматичний шлях між «платити за SaaS» і «ставити GPU»: використовувати cloud API, але обирати модель залежно від задачі.
- Прості Q&A і бронювання: gpt-4o-mini ($0.15/$0.60 за M)
- Складні пояснення і деталі: gpt-4o або Claude Haiku ситуативно
- Батчеві задачі (обробка даних, не real-time): Batch API зі знижкою 50%
Це дає якість cloud-рівня без операційної відповідальності за залізо.
Висновок для SMB
Для малого і середнього leisure-бізнесу self-hosted LLM — це більше проблем, ніж вигоди:
- Початкові інвестиції $1 000-2 000+ при breakeven 300+ місяців
- Вища latency, що погіршує UX
- Операційні ризики (uptime, оновлення)
- Гірша якість Ukrainian порівняно з cloud-моделями
- Прихований час на обслуговування
Cloud API з розумним вибором моделі дає краще відношення якість/вартість для 99% SMB кейсів.
Для тих, кого цікавить порівняння підходів до побудови AI-менеджера — Make і n8n vs SaaS. Про загальну картину AI проти живого менеджера — «AI vs живий менеджер».
Засновник Leadmlyn. Будую AI-менеджерів для leisure-бізнесу в Україні.