KB-редактор у Leadmlyn: що в ньому є і чому ми зробили саме так

Product deep-dive по KB-редактору Leadmlyn: що в ньому є, які архітектурні рішення прийнято і що планується. Чесно про поточні обмеження.

Павло Полюхович11 березня 2026 р.5 хв читання

Продукт

Власник запускає бота, додає кілька записів у базу знань, тестує. Бот відповідає якось не так. Власник думає: «Я ж написав там усе». Але він не знає, що саме бот «побачив» з його записів — і чи побачив взагалі.

Ця проблема і стала причиною того, що ми побудували власний KB-редактор, а не сказали «використовуй Google Docs і закидай посилання».

Навіщо нам власний KB-редактор — а не просто Google Docs

Технічно можна зробити систему, яка «ковтає» посилання на Docs, Notion або PDF і індексує вміст. Багато AI-SaaS так і роблять. Проблема в тому, що власник відразу відривається від процесу: він пише в одному місці, а бот читає щось, про що власник має лише теоретичне уявлення.

У нас інший принцип: те, що бачиш у редакторі — це і є те, що потрапить у RAG. Записи видно як фрагменти, статус кожного показано явно, і одразу після редагування можна перевірити результат у playground. Ніяких прихованих перетворень між «написав» і «бот відповів».

Другий аргумент — структура. У Docs немає поняття «запис про ціну» vs «запис FAQ» vs «запис про правила скасування». В нашій системі це розрізняється через поле source_type: faq, price, file, url. Ця структура впливає на ранжування при пошуку — прайсовий запис матиме перевагу при ціновому питанні.

Що є в KB-редакторі зараз

Редактор організований навколо типів записів.

FAQ-записи (faq): пара «питання — відповідь». Це найпоширеніший тип. «Чи можна з дітьми?» / «Так, але для дітей до 7 років обов'язкова присутність батьків.» Одне питання — один запис. Не варто пакувати 5 питань в один запис — RAG шукатиме по сенсу, і один великий запис гірше знаходиться, ніж кілька маленьких.

Цінові записи (price): поле price_item_name і price_item_value. «Лазертаг будній день» / «180 грн/особа». Структурований формат з окремими полями дозволяє рендерити ціни у фіксованому вигляді, що допомагає RAG при точних числових запитах.

Файли (file): PDF, docx — завантажуються напряму, розбиваються на чанки автоматично. Зручно для умов договору або детального прайс-листа. Для поточної версії є нюанс: файли без явної структури (суцільний текст) індексуються гірше, ніж ручні записи.

URL (url): індексація зовнішньої сторінки. Наприклад, сторінки з цінами на сайті. Система завантажує і парсить контент при додаванні, але не оновлює автоматично при зміні сторінки — для актуальних даних краще ручний запис.

Кожен запис має статус: pending (щойно доданий, очікує індексації), processing (векторизується), indexed (готовий, бот може використовувати), failed (щось пішло не так, є повідомлення про помилку). Статус indexed означає, що запис проіндексовано і потрапить у RAG.

Поле is_active — окремий перемикач поверх статусу. Запис може бути indexed, але is_active = false — і тоді він у пошук не потрапить. Це ключова деталь, яка пояснює наступне рішення.

Рішення, які ми прийняли при розробці — і чому

Активація замість видалення. Ми свідомо не зробили «видалити запис» основним сценарієм для тимчасового відключення. Замість цього — toggle is_active. Причина: видалення незворотне, а деактивація — ні. Для сезонних акцій, тимчасових змін у прайсі, закритих днів — деактивуй запис, а не видаляй. Потім одним кліком поверни.

Рівний текст замість rich formatting. В редакторі є підтримка базового markdown — жирний, курсив, списки. Але ми навмисно не робили таблиці, колонки або складні вкладення. RAG добре читає лінійний текст. Складне форматування збільшує шум при векторизації, і бот потім плутається між семантикою тексту і розміткою. Plain text з чіткою структурою краще.

Структурована KB замість flat. Ми обговорювали flat-підхід — просто список записів без типів. Але типи дали нам можливість диференційованого ранжування і правильної презентації в UI. Власник бачить чіткий розподіл: «Ціни», «FAQ», «Документи» — і розуміє, що де шукати і що редагувати.

Відображення token_count на чанку. Кожен KnowledgeChunk зберігає кількість токенів. Це не просто для інформації — це дані для оптимізації KB. Якщо чанк займає 800 токенів, а середній токен-бюджет на KB-витяжку 1500 — то цей один запис може «з'їсти» більше половини ліміту, і бот не знайде інші релевантні факти.

# KnowledgeChunk — ключові поля що впливають на якість RAG
class KnowledgeChunk:
    content: str          # текст фрагменту
    token_count: int      # скільки токенів займає
    embedding: Vector     # 1536-вимірний вектор (text-embedding-3-small)
    category: str | None  # додаткова класифікація
    intent_tags: list[str]  # теги для ранжування за типом наміру

Спробуй описане в дії.

Усі фічі з цього посту доступні в trial-плані.

Спробувати

Відомі обмеження і що планується

Чесно про те, чого зараз немає.

Немає повнотекстового пошуку по KB в UI. Якщо в тебе 150 записів і ти хочеш знайти всі, де згадується «лазертаг» — доведеться гортати. Пошук по KB-записах в адмін-панелі — у планах, але поки не реалізовано.

Немає bulk import з таблиці. Завантажити прайс як CSV і автоматично перетворити на price-записи — очевидна потреба. Є csv_schema_inferrer у сервісному шарі, але UI для цього ще не готовий.

Немає автоматичного оновлення URL. Якщо ти додав сторінку сайту, зміни на ній не підтягнуться автоматично. Треба вручну оновити або перезавантажити URL.

Файли без явної структури індексуються гірше. PDF, в якому текст суцільним потоком без заголовків — розбивається на довільні чанки. Якщо в тебе є такий документ, краще перенести ключові факти в ручні FAQ-записи.

Все перераховане — реальні обмеження поточної версії, а не маркетингові «ми над цим працюємо». Ці речі є в roadmap.

Як максимально використати KB-редактор

Кілька практичних правил, які виходять із розуміння того, як RAG читає записи.

Один факт — один запис. Не «Ціни і умови бронювання в одному» — а окремо «Ціни на лазертаг» і окремо «Умови бронювання». Маленький сфокусований запис знаходиться краще.

Запитання у FAQ-записах пишіть так, як пише клієнт. Не «Чи відповідає заклад за збереження особистих речей клієнтів?» — а «Де залишити речі? Є камера схову?». Вектор FAQ-запитання формується разом з відповіддю і впливає на матчинг.

Після кожної зміни — тест у playground. Змінив запис → зайшов у playground → задав питання, яке має спирається на цей запис → перевірив, що бот відповів правильно і показав потрібний чанк. Без цього кроку не знаєш, чи зміна спрацювала.

Деактивуй замість видалення. Принцип, про який вже писав — але він варто повторення. Видалення незворотне. Деактивація — ні. Для сезонних записів заведи звичку: не видаляти, а перемикати is_active.

Слідкуй за довжиною. Якщо запис перевищує 300–400 слів — це сигнал, що там кілька тем, і їх варто розбити. Системне обмеження для KnowledgeFact — 500 символів, це хороший орієнтир для коротких фактичних записів.

KB-редактор — це не «місце куди скопіюєш інформацію». Це шар між тим, що ти знаєш про свій бізнес, і тим, що скаже бот клієнту. Якість цього шару визначає якість бота.

Технічне пояснення того, як відбувається пошук по KB — у статті RAG у Leadmlyn: як влаштований пошук по базі знань.

#kb-редактор #база-знань #leadmlyn-продукт #rag #налаштування-бота #knowledge-base #product-deep-dive

Поділитися:Telegram X

Павло Полюхович

Засновник Leadmlyn. Будую AI-менеджерів для leisure-бізнесу в Україні.

KB-редактор у Leadmlyn: що в ньому є і чому ми зробили саме так

Павло Полюхович11 березня 2026 р.5 хв читання

Продукт

KB-редактор у Leadmlyn: що в ньому є і чому ми зробили саме так

Навіщо нам власний KB-редактор — а не просто Google Docs

Що є в KB-редакторі зараз

Редактор організований навколо типів записів.

Рішення, які ми прийняли при розробці — і чому

# KnowledgeChunk — ключові поля що впливають на якість RAG
class KnowledgeChunk:
    content: str          # текст фрагменту
    token_count: int      # скільки токенів займає
    embedding: Vector     # 1536-вимірний вектор (text-embedding-3-small)
    category: str | None  # додаткова класифікація
    intent_tags: list[str]  # теги для ранжування за типом наміру

Спробуй описане в дії.

Усі фічі з цього посту доступні в trial-плані.

Спробувати

Відомі обмеження і що планується

Чесно про те, чого зараз немає.

Як максимально використати KB-редактор

Кілька практичних правил, які виходять із розуміння того, як RAG читає записи.

Технічне пояснення того, як відбувається пошук по KB — у статті RAG у Leadmlyn: як влаштований пошук по базі знань.

#kb-редактор #база-знань #leadmlyn-продукт #rag #налаштування-бота #knowledge-base #product-deep-dive

Поділитися:Telegram X

Павло Полюхович

Засновник Leadmlyn. Будую AI-менеджерів для leisure-бізнесу в Україні.

KB-редактор у Leadmlyn: що в ньому є і чому ми зробили саме так

Навіщо нам власний KB-редактор — а не просто Google Docs

Що є в KB-редакторі зараз

Рішення, які ми прийняли при розробці — і чому

Відомі обмеження і що планується

Як максимально використати KB-редактор

Схожі статті

Roadmap Leadmlyn на 6 місяців — що будуємо і чому саме це

Wallet-модель Leadmlyn — чому передоплата, а не рахунок наприкінці місяця

Admin dashboard за 2 тижні — що будували, що переробили, що залишилось

KB-редактор у Leadmlyn: що в ньому є і чому ми зробили саме так

Навіщо нам власний KB-редактор — а не просто Google Docs

Що є в KB-редакторі зараз

Рішення, які ми прийняли при розробці — і чому

Відомі обмеження і що планується

Як максимально використати KB-редактор

Схожі статті

Roadmap Leadmlyn на 6 місяців — що будуємо і чому саме це

Wallet-модель Leadmlyn — чому передоплата, а не рахунок наприкінці місяця

Admin dashboard за 2 тижні — що будували, що переробили, що залишилось