Чому Leadmlyn рахує токени а не повідомлення — чесна модель оплати
Чому більшість AI SaaS рахують повідомлення і як це маніпулятивно. Де Leadmlyn обрав токени замість повідомлень і чому це справедливіша модель навіть якщо складніша для пояснення.
Думки
Чому Leadmlyn рахує токени а не повідомлення — чесна модель оплати
Уявіть дві розмови в Telegram з вашим AI-менеджером.
Перша: клієнт пише «Привіт» — бот відповідає «Привіт! Чим можу допомогти?». Одне повідомлення.
Друга: клієнт пише «Нам потрібно забронювати великий зал для корпоративу на 25 чоловік, є різні побажання щодо харчування, кілька колег приїдуть з дітьми, бюджет обмежений, і нам потрібно порівняти два варіанти дат — 14 і 21 числа» — бот відповідає розгорнуто: перераховує варіанти залів, питає про вікові категорії дітей, уточнює формат харчування, пропонує порівняння дат по доступності. Теж одне повідомлення.
У моделі «оплата за повідомлення» ці дві розмови коштують однаково.
Це несправедливо. І від цього несправедлива ситуація — не для мене як вендора, а для вас як клієнта.
Проблема з оплатою «за повідомлення»
«Per message» — це найпростіша модель ціноутворення для AI SaaS. Клієнт розуміє її відразу: «100 повідомлень на місяць — 500 ₴, 500 повідомлень — 1500 ₴». Жодних пояснень про токени, LLM, input/output. Зрозуміло, як мобільний тариф з мінутами.
Але в цій простоті прихована проблема.
Вартість однієї відповіді бота не фіксована — вона залежить від складності. Бот відповів «Так, є місця на суботу» — одна мала вартість. Бот відповів на питання про три різні пакети послуг з порівнянням цін і умов, витягнувши інформацію з вашої бази знань — зовсім інша.
Коли провайдер рахує «за повідомлення», він усереднює цю вартість. Але усереднення завжди на чийсь рахунок. Або клієнт переплачує за короткі відповіді. Або провайдер закладає маржу, яка покриває дорогі відповіді за рахунок усіх клієнтів. Або — і це найгірший варіант — провайдер стимулює ліміти на складність відповідей, щоб не виходити за маржу.
Є ще один ефект, який я спостерігав у продуктах конкурентів: «лімітні плани» на повідомлення змушують бізнес постійно думати «а скільки у мене ще залишилось» — і обмежувати власних клієнтів, ховати бота або вимикати його в кінці місяця. Це сюрреалізм: ви платите за AI-менеджер щоб він відповідав клієнтам — але в останні дні місяця вимикаєте його щоб не перевитратити ліміт.
Що ми рахуємо натомість і чому це правильніше
Бот спілкується через LLM — великі мовні моделі типу GPT-4o mini. LLM рахують в токенах: умовно, токен — це кілька символів тексту або слово. Кожна відповідь бота коштує рівно стільки токенів, скільки вона коштує — не більше, не менше.
Я прийняв рішення: клієнт платить за реальне споживання, а не за умовні «одиниці послуги».
Технічно це виглядає так: у вашому акаунті є wallet — попереднє поповнення, яке списується за кожну розмову за реальною вартістю токенів плюс наш маркуп 10–15%. Коротка відповідь — списується мало. Складна консультація з порівнянням варіантів — більше.
Засновник Leadmlyn. Будую AI-менеджерів для leisure-бізнесу в Україні.