Datasetgen: правила, проверочные наборы и регрессии после каждой правки

Этот слой вырос из четырёх внедрений, где снова и снова повторялась одна работа: вытащить правила из документов и чатов, поднять похожие реальные кейсы и до релиза увидеть, где агент всё ещё действует по старому сценарию.

На одном проекте 47% правок выросли из живых диалогов. На другом корпоративный тон шлифовали больше 60 итераций. На третьем формула уверенности доросла до 30+ параметров. На четвёртом понадобились отдельные наборы проверки для каждого промежуточного шага.

После нескольких внедрений стало видно одно и то же: модель и RAG поднимаются быстро. Дорогая часть начинается позже, когда нужно собрать правила из PDF, DOCX, таблиц и чатов, превратить реальные ошибки в проверочные кейсы и не пересобирать всё заново после каждой смены сценария или контракта. Из этой повторяющейся работы и вырос datasetgen.

Общая карта платформы — на обзорной странице →

Как это выглядит на одном изменении

Пациент пишет в ДМС-чат: «Нужно МРТ, удобно завтра после обеда». До вчерашнего дня агент мог сразу готовить запись в клинику. Теперь по программе для таких случаев сначала обязателен телемед, а гарантийное письмо нельзя выпускать до этого шага.

Без такого слоя это изменение живёт в PDF, переписке с бизнесом и в голове аналитика. Агент при этом легко продолжает часть сценариев по старому маршруту: пытается записать пациента сразу или слишком рано готовит гарантийное письмо.

Datasetgen забирает новое правило, поднимает похожие реальные чаты и собирает из них набор проверки: где запись можно делать сразу, где нужно остановиться на телемеде, где обращение должно уйти оператору.

После этого команда прогоняет новый вариант агента по этому набору и получает не абстрактный “контур качества”, а конкретный список сценариев, где агент всё ещё путает маршрут, клинику или момент выпуска гарантийного письма.

Документы и чаты — в единое описание правил
Проверочные наборы под конкретный контракт агента
Исправление и перенос наборов вместо разовой генерации
Бизнес-анализ и QA в одном контуре
Слой, выросший из четырёх внедрений
Документы и чаты — в единое описание правил
Проверочные наборы под конкретный контракт агента
Исправление и перенос наборов вместо разовой генерации
Бизнес-анализ и QA в одном контуре
Слой, выросший из четырёх внедрений

Из каких кейсов это выросло

Каждый блок начинался как костыль на конкретном внедрении и дорастал до переиспользуемого механизма.

AI-агент вместо менеджера для портфелей до 5 млн

В инвестиционном проекте 47% правок выросли из живых диалогов. Стало ясно, что обращения из продакшна нужно превращать в новые правила и проверочные кейсы, а не разбирать постфактум на созвонах.

Один из крупнейших телеком-операторов

В телекоме корпоративный тон и формулировки шлифовали 60+ итераций. Понадобился переносимый способ фиксировать сценарии и проверять качество после каждой правки, а не собирать этот контур заново.

Оператор городской транспортной системы

На транспортном проекте формула уверенности доросла до 30+ параметров, а каждый штраф появился после конкретного провала. Это показало, что ошибка часто живёт в данных и проверках ещё до модели.

Лучи: AI-система принятия решений в сервисе ДМС

В ДМС-процессе пришлось держать отдельные наборы проверки на чат, услугу, визит, заметки и OKK. Один итоговый балл оказался бесполезен, потому что ошибки прятались внутри промежуточных шагов.

Что делает datasetgen

Собираем единое описание правил

Мы вытаскиваем требования из документов, таблиц, схем и примеров, чтобы у команды было одно место с правилами, ограничениями и граничными случаями.

Строим проверочные наборы под конкретный контракт агента

Набор привязан к конкретной схеме входа и выхода, типам сценариев и границам, которые должен выдержать агент. Общий «датасет для домена» здесь бесполезен.

Проверяем смысл глубже формата

Корректный YAML или JSON — необходимый минимум. За ним стоят покрытие требований, негативные и граничные кейсы, противоречия в ожидаемом результате и признаки деградации.

Поддерживаем наборы после изменений

Когда меняется схема агента или сам сценарий, мы стараемся не собирать всё заново. Наборы точечно правятся, дополняются и по возможности переносятся на новый контракт.

Что здесь сложнее обычной настройки open source

Файл на выходе получить легко, а вот добиться, чтобы ожидаемый результат отражал реальную логику процесса и скрытые ограничения, — это уже другая работа. Правдоподобный на вид датасет обманывает всех, включая команду.

Самая трудная часть — перевести профессиональное суждение аналитика, QA и оператора в поля, негативные кейсы, допуски и проверяемые сценарии. Обычная настройка open source до этого места не дотягивает.

Эта работа никогда не заканчивается: документы меняются, агент получает новый контракт, сценарии расширяются. Значит, наборы проверки и сам контур качества тоже нужно обновлять, а не выбрасывать после каждой правки.

Где это сидит в платформе

Datasetgen уже встроен в платформу — это связка трёх модулей с общей карты.

Evaluation

Главный контур: синтетические и проверочные наборы, LLM-судьи, регрессии и контроль деградации после изменений.

Документы

Вход в контур: документы, таблицы, методики и примеры собираются в единое описание правил для генерации и проверки.

Чат и агенты

Процессы бизнес-анализа и QA поверх агентной среды: сбор контекста, нормализация требований, подготовка наборов и точечные правки после изменений.

Как мы собираем этот контур

Показать схему работы
ВХОДЫ
PDF / DOCX / таблицы · реальные диалоги · QA-артефакты · схемы входа / выхода
параллельно
КОНТЕКСТ
собрать из хаоса единое описание правил
Нормализация требований документы → требования
из документов вытаскиваются правила, ограничения, примеры и граничные случаи
Исследование и сбор контекста BA-процесс
если контекст сырой, контур сначала вытягивает белые пятна и фиксирует, что действительно известно
КОНТРАКТ
зафиксировать, что именно должен выдержать агент
Схема и примеры жёсткая схема
структура входа и выхода, порядок полей, допустимые значения и инварианты
Доменные правила под проект
RAG, subscriber mocks, Excel-сценарии и другие типы входов получают отдельную логику сборки
единое описание правил →
requirements.md схема агента примеры и ограничения
ГЕНЕРАЦИЯ сборка наборов
позитивные, негативные, граничные и смешанные кейсы собираются под точную схему
ожидаемые результаты должны быть привязаны к исходным документам или известным правилам процесса
лёгкие проверки не пропускают сломанный формат в следующий этап
ОЦЕНКА проверка качества
Разбор набора покрытие + смысл
проверяются покрытие требований, подозрительные кейсы, повторения и внутренние противоречия
Быстрый проход и ручной разбор проверочный цикл
во время сборки есть быстрые проверки, а перед релизом команда отдельно разбирает покрытие и спорные кейсы
ПОДДЕРЖКА ПОСЛЕ ИЗМЕНЕНИЙ когда меняется агент
Точечные исправления точечная правка
проблемные кейсы чинятся или добавляются без пересборки всего набора
Перенос на новую схему смена контракта
когда меняется контракт агента, существующие наборы переносятся на новую схему и сохраняют ценность
Восстановление спецификации передача
если код убежал вперёд документации, контур помогает восстановить спецификацию по фактической реализации
документы → требования → проверочные наборы → отчёты по качеству → точечные правки и перенос на новую схему · бизнес-анализ и QA в одном контуре · слой переиспользуется между проектами, а доменная логика остаётся клиент-специфичной

Что это меняет в проекте

На новом проекте команда не начинает с нуля сбор требований и проверочных наборов. Повторяющиеся шаги уже упакованы, механическая сборка артефактов остаётся внутри, и время уходит на доменную специфику.

После изменений в агенте или документах не приходится вслепую пересобирать весь контур качества. Можно точечно обновлять наборы и отдельно проверять, что именно сломалось.

После изменения агента клиент получает обновлённые правила, набор проверки и отчёт, какие сценарии больше не проходят.

Четыре внедрения, из которых вырос этот слой, — на странице кейсов. Смотреть кейсы →

Расскажите, какой процесс хотите разобрать.

Ответим, подходит ли задача для AI-агентов, и если да, предложим конкретный план.

или напишите напрямую — ilya@manaraga.ai