Llama, Mistral, Qwen — реальний розрахунок вартості локального LLM: GPU, електрика, час обслуговування. І випадки, коли це справді виправдано.

Відкриті моделі — Llama 3, Mistral, Qwen, Phi — реально хороші. Це не маркетинг: деякі з них на певних задачах конкурують з gpt-4o-mini. Ідея «поставити LLM на свій сервер і платити тільки за електрику» звучить логічно для бізнесу, який вже думає про довгострокові витрати.

Але є кілька пасток, про які не пишуть у статтях типу «як запустити Ollama за 15 хвилин». Розберемо чесно.

Що потрібно для запуску LLM локально

Почнемо з технічних вимог. Для генерації в реальному часі (< 3 секунди на відповідь) потрібно:

Невеликі моделі (7-8B параметрів, Llama 3 8B, Mistral 7B):

GPU з 8+ ГБ VRAM (мінімум), комфортно — 12-16 ГБ
NVIDIA RTX 3080 (10 ГБ): нова $700-900, б/в $400-600
NVIDIA RTX 4070 Ti (12 ГБ): нова $800-1100
Швидкість генерації: 15-30 токенів/сек — прийнятно

Середні моделі (13-14B параметрів, краща якість):

16-24 ГБ VRAM
RTX 4090 (24 ГБ): нова $1800-2200
Або дві карти з NVLink (нереалістично для SMB)
Швидкість генерації: 8-15 токенів/сек

Великі моделі (70B+, рівень gpt-4o-mini за якістю):

48-80 ГБ VRAM — тільки серверне обладнання
Мінімум: дві A100 80GB або чотири A6000 48GB
Вартість: $20 000-80 000+

Висновок вже тут: щоб отримати якість, порівнянну з тим, що дає API за $0.15/M токенів — потрібне серйозне залізо.

Реальна вартість локального запуску

Розрахунок для найдешевшого варіанту — RTX 4070 Ti + Mistral 7B:

Одноразові витрати:

GPU RTX 4070 Ti: ~$900 (б/в, ~36 000 ₴)
Комп'ютер (якщо немає): $500-800 (20 000-32 000 ₴)
Разом: $1 400-1 700 = 56 000-68 000 ₴

Щомісячні витрати:

Електрика: GPU в повному навантаженні ~250-350 Вт. 24/7 × 350 Вт × 30 днів = 252 кВт⋅год/міс. За тарифом ~3.5 ₴/кВт⋅год = 882 ₴/міс
Але бот не під навантаженням 24/7. При 500 розмовах на місяць × 30 сек генерації = 250 хвилин активного часу = ~4 години/міс. Реальна додаткова електрика: 4 год × 0.35 кВт = 1.4 кВт⋅год = 4.9 ₴/міс

Тут важливо: сервер під Ollama/vLLM зазвичай тримають запущеним постійно (щоб відповідати одразу, без cold start). Тому або платиш за idle-час GPU, або отримуєш cold start 10-30 секунд.

Часові витрати:

Проблема 2: fine-tuning і якість для Ukrainian

Більшість відкритих моделей тренована переважно на англомовних даних. Ukrainian — є, але в меншому обсязі. Для leisure-бізнесу це проявляється в:

Більш шаблонних і менш природних відповідях
Плутанині з граматичним родом і відмінюванням
Гіршій роботі з нестандартними формулюваннями

Fine-tuning для покращення якості на Ukrainian — це окрема задача з окремою вартістю: потрібні дані, GPU-час, ML-компетенція.

Проблема 3: відповідальність за uptime

Cloud API (OpenAI, Anthropic) гарантують 99.9% uptime. Ваш локальний сервер — ваша відповідальність. У разі відключення світла (що актуально для України), зависання системи, OOM-kill процесу — бот мовчить.

Для leisure-бізнесу, де клієнт пише у вечірній час (18:00-22:00), а власник вже не на роботі — це ризик реальних пропущених бронювань.

Коли self-hosted LLM реально виправданий

Є кейси, де він має сенс. Чесно:

Обсяг, що перевищує $500/міс на API. Якщо бізнес робить мільйони токенів на місяць (великі мережі, платформи) — breakeven з власним залізом настає. Для SMB з 500 розмовами це ~$2.5/міс токенів. Breakeven з $900 GPU — 360 місяців. Не виправдано.

Регуляторні вимоги. Медичні або юридичні дані, які не можна відправляти на зовнішні API. Для leisure-бізнесу не актуально.

Повна кастомізація і privacy. Якщо бізнес-дані дуже чутливі і є власна ML-команда. Не типово для малого leisure-бізнесу.

Навчально-дослідницькі цілі. Якщо ти технічний ентузіаст і хочеш розбиратись в LLM — self-hosted чудово підходить для цього. Але не для production-бота.

Hybrid підхід: cloud API з вибором моделі

Є більш прагматичний шлях між «платити за SaaS» і «ставити GPU»: використовувати cloud API, але обирати модель залежно від задачі.

Прості Q&A і бронювання: gpt-4o-mini ($0.15/$0.60 за M)
Складні пояснення і деталі: gpt-4o або Claude Haiku ситуативно
Батчеві задачі (обробка даних, не real-time): Batch API зі знижкою 50%

Це дає якість cloud-рівня без операційної відповідальності за залізо.

Висновок для SMB

Для малого і середнього leisure-бізнесу self-hosted LLM — це більше проблем, ніж вигоди:

Початкові інвестиції $1 000-2 000+ при breakeven 300+ місяців
Вища latency, що погіршує UX
Операційні ризики (uptime, оновлення)
Гірша якість Ukrainian порівняно з cloud-моделями
Прихований час на обслуговування

Cloud API з розумним вибором моделі дає краще відношення якість/вартість для 99% SMB кейсів.

Для тих, кого цікавить порівняння підходів до побудови AI-менеджера — Make і n8n vs SaaS. Про загальну картину AI проти живого менеджера — «AI vs живий менеджер».

Open-source LLM локально — чому це рідко виправдано для малого бізнесу

Що потрібно для запуску LLM локально

Реальна вартість локального запуску

Схожі статті

Leadmlyn vs Custom GPT — що вибрати для бізнесу в Telegram

Make і n8n vs SaaS — коли будувати самому, а коли купити готове

Проблема 1: latency

Проблема 2: fine-tuning і якість для Ukrainian

Проблема 3: відповідальність за uptime

Коли self-hosted LLM реально виправданий

Hybrid підхід: cloud API з вибором моделі

Висновок для SMB

ROI-формула для AI-менеджера без маркетингових відсотків