Три слоя инфраструктуры, шесть инженерных направлений. Каждый проект берёт из этой карты нужный набор — не больше и не меньше.
У телеком-оператора, инвестиционного подразделения банка и транспортной системы — разные процессы и разные ограничения. Но инженерные задачи пересекаются: всем нужен инференс, защитные фильтры и работа с документами. Отличается настройка. В финансах фильтры блокируют инвестиционные рекомендации. На транспорте — галлюцинации про несуществующие инциденты. В телекоме — нарушения корпоративного тона и ответы на вопросы, на которые агент отвечать не должен.
Ниже — полная карта. Строки — три слоя с разной степенью кастомизации. Колонки — шесть инженерных направлений. Каждая ячейка — один из трёх типов. Open source — зрелые решения, которые незачем переписывать: vLLM для инференса, Langfuse для мониторинга, Qdrant для векторного поиска. Платформа Manaraga — модули, которые мы переносим между проектами и дорабатываем с каждым внедрением: оркестрация агентов, чат, масштабирование инференса, корпоративный тон. Кастомная разработка — код под конкретный процесс: RAG-пайплайны, доменные агенты, интеграции с CRM и ERP.
Каждый проект собирается из трёх слоёв. Нижний не зависит от индустрии. Средний переиспользуется между проектами. Верхний пишется под конкретный бизнес-процесс. Безопасность — не отдельный слой, а сквозное требование: маскирование данных, фильтрация атак, аудит решений и контроль доступа встроены в каждый компонент.
Хостинг, маршрутизация запросов, векторные базы. Здесь работает зрелый open source — наша задача правильно его настроить под корпоративную нагрузку.
Мониторинг, защитные фильтры, оценка качества, оркестрация и память агентов. Здесь сосредоточена основная часть наших собственных наработок — инженерные решения, которые мы вырастили из проблем, повторяющихся на каждом проекте.
Поиск по документам клиента, доменные агенты, коннекторы к CRM и ERP, синтетические наборы данных, дообучение. Код, который пишется под бизнес-процесс и остаётся у заказчика.
На каждом проекте нужны разные типы вычислений одновременно — классификация, генерация, векторизация — и каждый с разными требованиями к скорости и стоимости. Одна модель и один пул мощностей в корпоративной среде не работают: задачи конкурируют за ресурсы, а при сбое провайдера система встаёт целиком — как случилось на транспортном проекте, пока мы не развели модели по отдельным инстансам с автоматическим fallback.
Мы разделяем инференс на четыре типа GPU-инстансов: рассуждение, быстрая генерация, векторизация, работа с изображениями. Маршрутизатор распределяет запросы, переключает на резервную модель при сбоях, контролирует квоты и приоритеты по проектам.
Время отклика и доля ошибок не объясняют, почему агент ответил именно так и сколько стоил один исход. На телеком-проекте именно бизнес-метрики — не инженерные — позволили найти категории обращений, где агент работает лучше оператора, и те, где его нельзя выпускать.
Мы собираем два слоя метрик. Инженерный: трассировку каждого вызова, цепочки вызовов инструментов, стоимость по токенам. И бизнесовый: воронки обработки обращений, долю автоматических решений, стоимость одного исхода.
Промпт-инъекции и утечка данных — базовые угрозы, стандартные библиотеки их ловят. Но у каждой отрасли свои запреты, которые никакая библиотека не покрывает. В проекте для инвестиционного подразделения банка агент начал подсказывать ответы на квалификационные тесты — то, что регулятор запрещает однозначно.
Мы встраиваем фильтрацию в каждый запрос к модели — на входе и выходе: маскирование данных по ФЗ-152, обнаружение атак, правила под конкретный бизнес. В банке выстроили многослойный комплаенс: запреты в промпте, сценарии отказа, петля перепроверки и аудит каждого ответа.
В проекте для инвестиционного подразделения банка — многослойный комплаенс: запреты в prompt, refusal-сценарии, checker-петля и аудит ответа. Кейс →
Качество нельзя проверить один раз и забыть — модель обновляется, данные меняются, промпт подправили, и ответы стали хуже. На транспортном проекте бинарный порог «уверен / не уверен» давал слишком много ложных эскалаций: система отправляла оператору обращения, на которые могла ответить сама.
Мы построили трёхпроходную формулу уверенности — 30+ параметров, калиброванных на реальных обращениях. Она определяет, когда агент может ответить сам, а когда нужен человек. Параллельно работают LLM-судьи, эталонные кейсы из продакшна и синтетические наборы данных — чтобы ловить деградацию до прода, а не после жалобы.
В проекте для транспортной системы — трёхпроходная формула уверенности с 30+ параметрами, калиброванными на боевых обращениях. Кейс →
У каждой компании свои регламенты, база знаний, нормативная документация. Стандартный RAG находит похожий фрагмент по вектору — но enterprise-задача сложнее. На телеком-проекте тарифный вопрос требовал точную цифру из таблицы, а векторный поиск возвращал «примерно похожий абзац».
Мы построили двойной индекс: один для поиска по смыслу, другой для точных данных — таблицы тарифов, цены, технические параметры. Обычный векторный поиск числа и таблицы теряет, потому что они плохо поддаются векторизации.
В проекте для телеком-оператора — двойной индекс: один для поиска по смыслу, другой для точных данных с таблицами и ценами. Кейс →
Агент в демо отвечает на вопросы. Агент в продакшне должен помнить контекст между сессиями, вызывать инструменты, следовать сценарию и эскалировать на человека. В финансовом проекте агент вёл продажу по жёсткой воронке, помнил прошлые диалоги с клиентом, не смешивая продукты, и не мог выйти за рамки комплаенса — конечный автомат с тремя контурами и двумя режимами работы.
Мы собрали инфраструктуру оркестрации, чата и памяти, чтобы не писать её с нуля на каждом проекте. Отдельный компонент — Content Digital Twin — отвечает за корпоративный тон: 60+ итераций, прежде чем агент стал звучать как сотрудник компании, а не как чат-бот.
Каждый проект берёт из карты свой набор. Мониторинг и оценка качества нужны на каждом проекте. Защитные фильтры настраиваются под отрасль: в финансах — многослойный комплаенс, на транспорте — фильтрация галлюцинаций, в телекоме — корпоративный тон и границы эскалации. Модули документов и агентов собираются под конкретный процесс.
Вся инфраструктура разворачивается в контуре клиента. Каждый компонент — стандартный контейнер.
Ответим, подходит ли задача для AI-агентов, и если да, предложим конкретный план.
Заявка отправлена
Ответим в течение дня на указанный email.
или напишите напрямую — ilya@manaraga.ai