Чому Leadmlyn рахує токени а не повідомлення — чесна модель оплати
Чому більшість AI SaaS рахують повідомлення і як це маніпулятивно. Де Leadmlyn обрав токени замість повідомлень і чому це справедливіша модель навіть якщо складніша для пояснення.
Думки
Чому Leadmlyn рахує токени а не повідомлення — чесна модель оплати
Уявіть дві розмови в Telegram з вашим AI-менеджером.
Перша: клієнт пише «Привіт» — бот відповідає «Привіт! Чим можу допомогти?». Одне повідомлення.
Друга: клієнт пише «Нам потрібно забронювати великий зал для корпоративу на 25 чоловік, є різні побажання щодо харчування, кілька колег приїдуть з дітьми, бюджет обмежений, і нам потрібно порівняти два варіанти дат — 14 і 21 числа» — бот відповідає розгорнуто: перераховує варіанти залів, питає про вікові категорії дітей, уточнює формат харчування, пропонує порівняння дат по доступності. Теж одне повідомлення.
У моделі «оплата за повідомлення» ці дві розмови коштують однаково.
Це несправедливо. І від цього несправедлива ситуація — не для мене як вендора, а для вас як клієнта.
Проблема з оплатою «за повідомлення»
«Per message» — це найпростіша модель ціноутворення для AI SaaS. Клієнт розуміє її відразу: «100 повідомлень на місяць — 500 ₴, 500 повідомлень — 1500 ₴». Жодних пояснень про токени, LLM, input/output. Зрозуміло, як мобільний тариф з мінутами.
Але в цій простоті прихована проблема.
Вартість однієї відповіді бота не фіксована — вона залежить від складності. Бот відповів «Так, є місця на суботу» — одна мала вартість. Бот відповів на питання про три різні пакети послуг з порівнянням цін і умов, витягнувши інформацію з вашої бази знань — зовсім інша.
Коли провайдер рахує «за повідомлення», він усереднює цю вартість. Але усереднення завжди на чийсь рахунок. Або клієнт переплачує за короткі відповіді. Або провайдер закладає маржу, яка покриває дорогі відповіді за рахунок усіх клієнтів. Або — і це найгірший варіант — провайдер стимулює ліміти на складність відповідей, щоб не виходити за маржу.
Є ще один ефект, який я спостерігав у продуктах конкурентів: «лімітні плани» на повідомлення змушують бізнес постійно думати «а скільки у мене ще залишилось» — і обмежувати власних клієнтів, ховати бота або вимикати його в кінці місяця. Це сюрреалізм: ви платите за AI-менеджер щоб він відповідав клієнтам — але в останні дні місяця вимикаєте його щоб не перевитратити ліміт.
Що ми рахуємо натомість і чому це правильніше
Бот спілкується через LLM — великі мовні моделі типу GPT-4o mini. LLM рахують в токенах: умовно, токен — це кілька символів тексту або слово. Кожна відповідь бота коштує рівно стільки токенів, скільки вона коштує — не більше, не менше.
Я прийняв рішення: клієнт платить за реальне споживання, а не за умовні «одиниці послуги».
Технічно це виглядає так: у вашому акаунті є wallet — попереднє поповнення, яке списується за кожну розмову за реальною вартістю токенів плюс наш маркуп 10–15%. Коротка відповідь — списується мало. Складна консультація з порівнянням варіантів — більше.
Середня розмова в leisure-бізнесі коштує приблизно $0.002 — дві тисячних долара. За 500 таких розмов на місяць — $1. Де ця математика і чому вона саме така — детально. Але суть не в цифрах, а в принципі.
Принцип: ви платите за те, що споживаєте. Не за те, що вам продали у вигляді пакету.
Це значить, що якщо ваш бізнес цього місяця тихіший — ви платите менше. Якщо активніший — більше, але пропорційно. Якщо клієнти пишуть прості короткі питання — менше, ніж якщо ведуть складні консультації. Це справедливо.
Компроміс: токени складніше розуміти
Я не буду робити вигляд, що ця модель безпроблемна.
«Повідомлення» — інтуїтивна одиниця. Я відправив і отримав повідомлення — я розумію що сталось. «Токени» — ні. Що таке токен? Скільки їх у відповіді? Чому їх кількість різна?
Це реальна проблема для пояснення продукту. Я витрачаю більше часу на onboarding. Клієнт на старті розуміє «500 повідомлень» краще ніж «wallet на $5».
Ми вирішуємо це трьома способами.
Перший: дашборд показує не токени, а гривні. Ви бачите «ця розмова коштувала 0.08 ₴» — це зрозуміло без знання що таке токен.
Другий: прогноз. Дашборд показує, на скільки днів вистачить поточного балансу wallet при вашому темпі. Не «скільки токенів залишилось», а «залишилось на 23 дні».
Третій: алерт. Коли wallet падає нижче вашого порогу — SMS власнику. Без ситуації «бот замовчав, а ми не помітили».
Складніше для пояснення — але справедливіше для клієнта. Я свідомо пішов на цей компроміс.
Моя позиція: краще складніше але чесно
Є момент у побудові SaaS, де ти обираєш: зробити ціноутворення простим і зручним для продажу — або справедливим і прозорим для клієнта.
Ці два варіанти не завжди суперечать одне одному. Але часто — суперечать.
Per-message простий для продажу. «100 повідомлень за 500 ₴» — клієнт розуміє відразу, підписується, маркетинговий конвеєр рухається. Але всередині цього пакету прихована усереднена вартість, прихована маржа і прихований стимул обмежувати якість відповідей.
Я не хочу будувати так. Не з ідеалістичних міркувань — а з практичних. Клієнт, якому зрозуміло за що він платить, залишається довше. Клієнт, який через три місяці відчуває що його ціноутворення непрозоре, іде.
Прозорість — це не альтруїзм. Це спосіб будувати бізнес на довірі замість на інерції.
Wallet-модель і чому ми обрали передоплату замість постоплати — там детальніше про операційну логіку цього рішення. Але тут я хочу підкреслити одне.
Є сотні AI SaaS, які рахують повідомлення. Є мало таких, що рахують реальне споживання. Я хочу бути серед других — не тому що це легше продавати, а тому що це правильніше для клієнта.
Якщо вам складніше розібратись у токенах на початку — я розумію. Тому ми і зробили дашборд, де токени перекладені в гривні і прогноз. Але принцип залишається: ви платите рівно за те, що використовуєте. Ні за усереднений пакет, ні за ліміти, які закінчуються в кінці місяця.
Це мій вибір як засновника. І я за нього стою.
Засновник Leadmlyn. Будую AI-менеджерів для leisure-бізнесу в Україні.