Частина серії: Скільки коштує AI-менеджер — чесна математика для UA-бізнесу
Токени і ціни LLM — що вони означають для твого бізнесу
Розбираємо, що таке токен, скільки коштує розмова бота в різних моделях, і чому gpt-4o-mini закриває 95% задач leisure-бізнесу.
Гайди
Токени і ціни LLM — що вони означають для твого бізнесу
Коли говорять «AI-бот занадто дорогий» — майже завжди виявляється, що людина не розуміє, як рахуються токени. Або розуміє неправильно. Ця стаття — коротке прояснення механіки з реальними числами, щоб ти міг сам перевірити будь-яку цифру, яку тобі называє постачальник.
Що таке токен
Токен — не слово і не символ у звичному розумінні. Це одиниця, яку модель «бачить» після того, як вхідний текст розбивається спеціальним алгоритмом (tokenizer). Приблизно:
- 1 слово англійською ≈ 1-1.3 токени
- 1 слово українською ≈ 2-4 токени (кирилиця кодується довше)
- 1000 символів українського тексту ≈ 600-800 токенів
Це важливо: якщо твій бізнес веде розмови українською, витрата токенів приблизно вдвічі вища, ніж в англомовному еквіваленті. Не критично — просто треба знати при розрахунку.
Ціни LLM станом на травень 2026
OpenAI:
- gpt-4o-mini: $0.15 за мільйон input-токенів / $0.60 за мільйон output-токенів
- gpt-4o: $2.50 за мільйон input / $10.00 за мільйон output
Anthropic:
- Claude Haiku: $0.80 за мільйон input / $4.00 за мільйон output
- Claude Sonnet: $3.00 за мільйон input / $15.00 за мільйон output
Перший висновок, який кидається в очі: gpt-4o-mini дешевший від Claude Haiku майже у 5 разів по input і в 6.7 разів по output. При цьому для задач резервування, відповідей на типові питання про ціни і розклад, нагадувань — якість gpt-4o-mini цілком достатня.
Анатомія одного виклику
Кожна відповідь бота — це один API-запит. До LLM летить:
- Системний промпт — інструкції для бота: роль, тон, обмеження, що можна/не можна говорити. Типово 1500-2500 токенів.
- Витяг з бази знань (RAG) — релевантні шматки з твого KB про послуги, ціни, розклад. Типово 800-2000 токенів залежно від запиту.
- Історія розмови — попередні повідомлення в треді. Зростає з кожним повідомленням від 0 до 500-800 токенів.
- Нове повідомлення клієнта — власне те, що він написав. 20-80 токенів.
На виході: 5. Відповідь бота — 80-200 токенів на повідомлення в середньому для leisure-бота.
Тепер підрахунок для середнього повідомлення в розмові:
| Компонент | Токени (input) |
|---|---|
| Системний промпт | 2000 |
| KB-витяг |
Не хочеш цього всього налаштовувати руками?
Leadmlyn робить це за тебе — від KB до бронювань. 14 днів trial за $0.99.
СпробуватиПовна розмова: від «Привіт» до «Ваш запис підтверджено»
Допустимо, клієнт бронює місце в квест-кімнаті. Типова розмова:
- Клієнт: «Привіт, хочу заброньювати на п'ятницю»
- Бот: уточнює час
- Клієнт: «О 19:00, нас троє»
- Бот: перевіряє доступність, пропонує варіанти
- Клієнт: «Підходить, як оплатити?»
- Бот: пояснює способи оплати, дає реквізити
- Клієнт: «Окей, оплатив»
- Бот: підтверджує бронювання, надсилає деталі
8 повідомлень, 8 API-викликів. При цьому Input накопичується: кожен наступний виклик включає всю попередню історію.
Сумарно за розмову (з урахуванням накопичення history):
- Input: ~6200 токенів
- Output: ~1200 токенів
Вартість (gpt-4o-mini): 6200 × $0.15 / 1M + 1200 × $0.60 / 1M = $0.00093 + $0.00072 = $0.00165
Менше двох десятих копійки. Менше 0.07 ₴.
Та сама розмова на gpt-4o: $0.0155 + $0.012 = $0.0275 — дорожче в ~17 разів, але досі дешевше 1.10 ₴.
Та сама розмова на Claude Sonnet: приблизно $0.019 + $0.018 = $0.037 — дорожче в ~22 рази порівняно з mini.
Яку модель обирати
Для leisure-бізнесу вибір простий:
gpt-4o-mini — за замовчуванням для 95% задач: відповіді на питання про ціни, розклад, бронювання, нагадування. Модель нормально тримає Ukrainian, розуміє контекст, не плутається в простих сценаріях.
gpt-4o — коли KB містить складні документи з винятками, умовами договорів, специфічними корпоративними правилами. Або коли потрібна більш «дипломатична» відповідь у напруженій ситуації. Але не для масового трафіку.
Claude Haiku — можна розглядати як альтернативу mini; дорожче, але частина вендорів відзначає кращу роботу з довгим контекстом.
Claude Sonnet — для складних кейсів, де потрібне нюансоване розуміння. Вартість у ~22 рази вища за mini без пропорційного приросту якості для стандартних leisure-задач.
Рекомендація: стартуй на mini. Якщо бачиш конкретні провали у відповідях — протестуй ту саму розмову на 4o і порівняй. Ухвалюй рішення per-task, не міняй всю систему.
Чому output коштує дорожче input
Це питання часто задають. Логіка: генерація кожного output-токена вимагає обчислень (авторегресивна генерація — кожен наступний токен залежить від попереднього). Input-токени обробляються паралельно. Тому output завжди дорожчий на маркетинг-мові «на порядок», хоча у gpt-4o-mini різниця 4-кратна (0.15 vs 0.60).
Засновник Leadmlyn. Будую AI-менеджерів для leisure-бізнесу в Україні.