Частина серії: Скільки коштує AI-менеджер — чесна математика для UA-бізнесу

Токени і ціни LLM — що вони означають для твого бізнесу

Розбираємо, що таке токен, скільки коштує розмова бота в різних моделях, і чому gpt-4o-mini закриває 95% задач leisure-бізнесу.

Павло Полюхович19 квітня 2026 р.5 хв читання

Гайди

Коли говорять «AI-бот занадто дорогий» — майже завжди виявляється, що людина не розуміє, як рахуються токени. Або розуміє неправильно. Ця стаття — коротке прояснення механіки з реальними числами, щоб ти міг сам перевірити будь-яку цифру, яку тобі называє постачальник.

Що таке токен

Токен — не слово і не символ у звичному розумінні. Це одиниця, яку модель «бачить» після того, як вхідний текст розбивається спеціальним алгоритмом (tokenizer). Приблизно:

1 слово англійською ≈ 1-1.3 токени
1 слово українською ≈ 2-4 токени (кирилиця кодується довше)
1000 символів українського тексту ≈ 600-800 токенів

Це важливо: якщо твій бізнес веде розмови українською, витрата токенів приблизно вдвічі вища, ніж в англомовному еквіваленті. Не критично — просто треба знати при розрахунку.

Ціни LLM станом на травень 2026

OpenAI:

gpt-4o-mini: $0.15 за мільйон input-токенів / $0.60 за мільйон output-токенів
gpt-4o: $2.50 за мільйон input / $10.00 за мільйон output

Anthropic:

Claude Haiku: $0.80 за мільйон input / $4.00 за мільйон output
Claude Sonnet: $3.00 за мільйон input / $15.00 за мільйон output

Перший висновок, який кидається в очі: gpt-4o-mini дешевший від Claude Haiku майже у 5 разів по input і в 6.7 разів по output. При цьому для задач резервування, відповідей на типові питання про ціни і розклад, нагадувань — якість gpt-4o-mini цілком достатня.

Анатомія одного виклику

Кожна відповідь бота — це один API-запит. До LLM летить:

Системний промпт — інструкції для бота: роль, тон, обмеження, що можна/не можна говорити. Типово 1500-2500 токенів.
Витяг з бази знань (RAG) — релевантні шматки з твого KB про послуги, ціни, розклад. Типово 800-2000 токенів залежно від запиту.
Історія розмови — попередні повідомлення в треді. Зростає з кожним повідомленням від 0 до 500-800 токенів.
Нове повідомлення клієнта — власне те, що він написав. 20-80 токенів.

На виході: 5. Відповідь бота — 80-200 токенів на повідомлення в середньому для leisure-бота.

Тепер підрахунок для середнього повідомлення в розмові:

Компонент	Токени (input)
Системний промпт	2000
KB-витяг	1200
Історія розмови	300
Повідомлення клієнта	50
Всього input	3550
Output	150

Вартість одного виклику (gpt-4o-mini):

Input: 3550 / 1 000 000 × $0.15 = $0.000533
Output: 150 / 1 000 000 × $0.60 = $0.000090
Разом: $0.000623 за одне повідомлення-відповідь

Це шість сотих копійки. Або менше 2.5 копійки гривнями за курсом ~40 ₴/$.

Не хочеш цього всього налаштовувати руками?

Leadmlyn робить це за тебе — від KB до бронювань. 14 днів trial за $0.99.

Спробувати

Повна розмова: від «Привіт» до «Ваш запис підтверджено»

Допустимо, клієнт бронює місце в квест-кімнаті. Типова розмова:

Клієнт: «Привіт, хочу заброньювати на п'ятницю»
Бот: уточнює час
Клієнт: «О 19:00, нас троє»
Бот: перевіряє доступність, пропонує варіанти
Клієнт: «Підходить, як оплатити?»
Бот: пояснює способи оплати, дає реквізити
Клієнт: «Окей, оплатив»
Бот: підтверджує бронювання, надсилає деталі

8 повідомлень, 8 API-викликів. При цьому Input накопичується: кожен наступний виклик включає всю попередню історію.

Сумарно за розмову (з урахуванням накопичення history):

Input: ~6200 токенів
Output: ~1200 токенів

Вартість (gpt-4o-mini): 6200 × $0.15 / 1M + 1200 × $0.60 / 1M = $0.00093 + $0.00072 = $0.00165

Менше двох десятих копійки. Менше 0.07 ₴.

Та сама розмова на gpt-4o: $0.0155 + $0.012 = $0.0275 — дорожче в ~17 разів, але досі дешевше 1.10 ₴.

Та сама розмова на Claude Sonnet: приблизно $0.019 + $0.018 = $0.037 — дорожче в ~22 рази порівняно з mini.

Яку модель обирати

Для leisure-бізнесу вибір простий:

gpt-4o-mini — за замовчуванням для 95% задач: відповіді на питання про ціни, розклад, бронювання, нагадування. Модель нормально тримає Ukrainian, розуміє контекст, не плутається в простих сценаріях.

gpt-4o — коли KB містить складні документи з винятками, умовами договорів, специфічними корпоративними правилами. Або коли потрібна більш «дипломатична» відповідь у напруженій ситуації. Але не для масового трафіку.

Claude Haiku — можна розглядати як альтернативу mini; дорожче, але частина вендорів відзначає кращу роботу з довгим контекстом.

Claude Sonnet — для складних кейсів, де потрібне нюансоване розуміння. Вартість у ~22 рази вища за mini без пропорційного приросту якості для стандартних leisure-задач.

Рекомендація: стартуй на mini. Якщо бачиш конкретні провали у відповідях — протестуй ту саму розмову на 4o і порівняй. Ухвалюй рішення per-task, не міняй всю систему.

Чому output коштує дорожче input

Це питання часто задають. Логіка: генерація кожного output-токена вимагає обчислень (авторегресивна генерація — кожен наступний токен залежить від попереднього). Input-токени обробляються паралельно. Тому output завжди дорожчий на маркетинг-мові «на порядок», хоча у gpt-4o-mini різниця 4-кратна (0.15 vs 0.60).

Практичний наслідок: тримай відповіді бота короткими. Не тому що «так краще UX» (хоча й це правда), а тому що кожне зайве слово у відповіді бота — це невеликий але реальний cost.

Кеш промптів — де ховається ще одна економія

OpenAI і Anthropic обидва мають prompt caching: якщо системний промпт і KB-витяг не змінились між запитами — вони кешуються. Повторний запит з тим самим початком платить суттєво менше за кешований input.

У Leadmlyn це реалізовано автоматично: системний промпт і база знань кешуються на рівні моделі. Для бізнесу з великим KB і стабільним промптом економія може становити 40-60% від input-вартості. Без будь-яких налаштувань з твого боку.

Підсумок: що варто пам'ятати

Одна розмова в leisure-боті коштує $0.002-0.005 при 8-15 повідомленнях на gpt-4o-mini. Це менше, ніж 0.2 ₴. 500 розмов на місяць — близько $1-2.5, тобто 40-100 ₴ токенів.

Якщо тобі кажуть, що токени — це сотні гривень на місяць для малого бізнесу, хтось або бере надлишковий markup, або використовує дорогу модель там, де вона не потрібна. Тепер ти можеш порахувати сам.

Повний розрахунок по тарифах і профілях бізнесу — у статті «Скільки коштує AI-менеджер». Детальний розбір того, чому Leadmlyn використовує markup 10-15% а не ціну «за повідомлення» — у статті «Маркап на токени: чому 10-15%».

#tokens #llm-pricing #openai #anthropic #gpt-4o-mini #cost-per-conversation

Поділитися:Telegram X

Павло Полюхович

Засновник Leadmlyn. Будую AI-менеджерів для leisure-бізнесу в Україні.

Частина серії: Скільки коштує AI-менеджер — чесна математика для UA-бізнесу

Токени і ціни LLM — що вони означають для твого бізнесу

Павло Полюхович19 квітня 2026 р.5 хв читання

Гайди

Токени і ціни LLM — що вони означають для твого бізнесу

Що таке токен

1 слово англійською ≈ 1-1.3 токени
1 слово українською ≈ 2-4 токени (кирилиця кодується довше)
1000 символів українського тексту ≈ 600-800 токенів

Ціни LLM станом на травень 2026

OpenAI:

gpt-4o-mini: $0.15 за мільйон input-токенів / $0.60 за мільйон output-токенів
gpt-4o: $2.50 за мільйон input / $10.00 за мільйон output

Anthropic:

Claude Haiku: $0.80 за мільйон input / $4.00 за мільйон output
Claude Sonnet: $3.00 за мільйон input / $15.00 за мільйон output

Анатомія одного виклику

Кожна відповідь бота — це один API-запит. До LLM летить:

Системний промпт — інструкції для бота: роль, тон, обмеження, що можна/не можна говорити. Типово 1500-2500 токенів.
Витяг з бази знань (RAG) — релевантні шматки з твого KB про послуги, ціни, розклад. Типово 800-2000 токенів залежно від запиту.
Історія розмови — попередні повідомлення в треді. Зростає з кожним повідомленням від 0 до 500-800 токенів.
Нове повідомлення клієнта — власне те, що він написав. 20-80 токенів.

На виході: 5. Відповідь бота — 80-200 токенів на повідомлення в середньому для leisure-бота.

Тепер підрахунок для середнього повідомлення в розмові:

Компонент	Токени (input)
Системний промпт	2000
KB-витяг	1200
Історія розмови	300
Повідомлення клієнта	50
Всього input	3550
Output	150

Вартість одного виклику (gpt-4o-mini):

Input: 3550 / 1 000 000 × $0.15 = $0.000533
Output: 150 / 1 000 000 × $0.60 = $0.000090
Разом: $0.000623 за одне повідомлення-відповідь

Це шість сотих копійки. Або менше 2.5 копійки гривнями за курсом ~40 ₴/$.

Не хочеш цього всього налаштовувати руками?

Leadmlyn робить це за тебе — від KB до бронювань. 14 днів trial за $0.99.

Спробувати

Повна розмова: від «Привіт» до «Ваш запис підтверджено»

Допустимо, клієнт бронює місце в квест-кімнаті. Типова розмова:

Клієнт: «Привіт, хочу заброньювати на п'ятницю»
Бот: уточнює час
Клієнт: «О 19:00, нас троє»
Бот: перевіряє доступність, пропонує варіанти
Клієнт: «Підходить, як оплатити?»
Бот: пояснює способи оплати, дає реквізити
Клієнт: «Окей, оплатив»
Бот: підтверджує бронювання, надсилає деталі

Сумарно за розмову (з урахуванням накопичення history):

Input: ~6200 токенів
Output: ~1200 токенів

Вартість (gpt-4o-mini): 6200 × $0.15 / 1M + 1200 × $0.60 / 1M = $0.00093 + $0.00072 = $0.00165

Менше двох десятих копійки. Менше 0.07 ₴.

Та сама розмова на gpt-4o: $0.0155 + $0.012 = $0.0275 — дорожче в ~17 разів, але досі дешевше 1.10 ₴.

Та сама розмова на Claude Sonnet: приблизно $0.019 + $0.018 = $0.037 — дорожче в ~22 рази порівняно з mini.

Яку модель обирати

Для leisure-бізнесу вибір простий:

Чому output коштує дорожче input

Кеш промптів — де ховається ще одна економія

Підсумок: що варто пам'ятати

#tokens #llm-pricing #openai #anthropic #gpt-4o-mini #cost-per-conversation

Поділитися:Telegram X

Павло Полюхович

Засновник Leadmlyn. Будую AI-менеджерів для leisure-бізнесу в Україні.

Токени і ціни LLM — що вони означають для твого бізнесу

Що таке токен

Ціни LLM станом на травень 2026

Анатомія одного виклику

Повна розмова: від «Привіт» до «Ваш запис підтверджено»

Яку модель обирати

Чому output коштує дорожче input

Кеш промптів — де ховається ще одна економія

Підсумок: що варто пам'ятати

Схожі статті

ROI-формула для AI-менеджера без маркетингових відсотків

Коли AI-менеджер не виправданий — 5 ситуацій, де краще почекати

990 ₴/міс vs ФОП-адмін — чесне порівняння витрат для малого бізнесу

Токени і ціни LLM — що вони означають для твого бізнесу

Що таке токен

Ціни LLM станом на травень 2026

Анатомія одного виклику

Повна розмова: від «Привіт» до «Ваш запис підтверджено»

Яку модель обирати

Чому output коштує дорожче input

Кеш промптів — де ховається ще одна економія

Підсумок: що варто пам'ятати

Схожі статті

ROI-формула для AI-менеджера без маркетингових відсотків

Коли AI-менеджер не виправданий — 5 ситуацій, де краще почекати

990 ₴/міс vs ФОП-адмін — чесне порівняння витрат для малого бізнесу